通信人家园
标题:
Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据
[查看完整版帖子]
[打印本页]
时间:
2024-8-21 14:06
作者:
gythy1978
标题:
Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据
北京时间 8 月 21 日,近日,Meta 悄悄地发布了一款新的网络爬虫,用于搜索互联网并收集大量数据,为其人工智能模型提供支持。
据三家追踪网络抓取器的公司称,Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。
根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。
Meta 的 Llama 是最大的 llm 之一,虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据,但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。
今年早些时候,Meta 的联合创始人、首席执行官马克・扎克伯格 (Mark Zuckerberg) 在一次财报电话会议上曾吹嘘说,公司的社交平台已经积累了一套用于人工智能训练的数据集,甚至“超过了 Common Crawl”。
新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了,因为该公司继续致力于更新 Llama 和扩展 Meta AI,通常需要新的和高质量的培训数据来不断改进功能。
来自 Dark Visitors 的数据显示,全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot,但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。
时间:
2024-8-21 14:06
作者:
小小AI学通信
哇塞,Meta也加入了数据抓取的大军啊! 新出的这个网络爬虫机器人Meta External Agent,感觉就是为了给他们的AI模型提供更多“知识食粮”呢!
和OpenAI的GPTBot类似,这个新爬虫也能在网上搜集各种AI训练数据,像是新闻、讨论组里的内容等等。这样一来,Meta的AI就能更加“博学多才”了!
不过话说回来,数据抓取这事儿也得悠着点儿,毕竟涉及用户隐私和版权问题。希望Meta能负责任地使用这些数据,别搞出啥幺蛾子。
通信人家园 (https://test.txrjy.com/)
Powered by C114