🤖 Common Crawl被指为AI公司提供付费墙内容并引发争议非营利组织Common Crawl（成立于2007年，已抓取数十亿网页）因其巨大的互联网存档库被OpenAI、Google、Anthropic、Nvidia、Meta和Amazon等AI公司用于训练大模型而引发争议

🤖 Common Crawl被指为AI公司提供付费墙内容并引发争议

非营利组织Common Crawl（成立于2007年，已抓取数十亿网页）因其巨大的互联网存档库被OpenAI、Google、Anthropic、Nvidia、Meta和Amazon等AI公司用于训练大模型而引发争议。该组织被指控为AI公司提供高质量的付费墙文章，并谎称不绕过付费墙或应新闻出版商要求删除内容。Common Crawl执行董事Rich Skrenta回应称，其爬虫不会执行付费墙代码，因此能在付费墙生效前读取全文，并表示出版商若不希望内容被抓取就不应发布到网上。目前，Common Crawl的CCBot已成为流行网站屏蔽最广泛的抓取程序之一。

(科技情报)

via 茶馆 - Telegram Channel