🤖 Common Crawl被指为AI公司提供付费墙内容并引发争议
非营利组织Common Crawl(成立于2007年,已抓取数十亿网页)因其巨大的互联网存档库被OpenAI、Google、Anthropic、Nvidia、Meta和Amazon等AI公司用于训练大模型而引发争议。该组织被指控为AI公司提供高质量的付费墙文章,并谎称不绕过付费墙或应新闻出版商要求删除内容。Common Crawl执行董事Rich Skrenta回应称,其爬虫不会执行付费墙代码,因此能在付费墙生效前读取全文,并表示出版商若不希望内容被抓取就不应发布到网上。目前,Common Crawl的CCBot已成为流行网站屏蔽最广泛的抓取程序之一。
(科技情报)
via 茶馆 - Telegram Channel
非营利组织Common Crawl(成立于2007年,已抓取数十亿网页)因其巨大的互联网存档库被OpenAI、Google、Anthropic、Nvidia、Meta和Amazon等AI公司用于训练大模型而引发争议。该组织被指控为AI公司提供高质量的付费墙文章,并谎称不绕过付费墙或应新闻出版商要求删除内容。Common Crawl执行董事Rich Skrenta回应称,其爬虫不会执行付费墙代码,因此能在付费墙生效前读取全文,并表示出版商若不希望内容被抓取就不应发布到网上。目前,Common Crawl的CCBot已成为流行网站屏蔽最广泛的抓取程序之一。
(科技情报)
via 茶馆 - Telegram Channel