Cloudflare 正在将AI网络爬虫引入“人工智能迷宫”互联网长期以来一直使用基于 robots.txt 的荣誉系统方式来控制抓取，这是一个文本文件，用于授予或拒绝爬虫程序的权限，但人工智能公司（甚至是Anthropic和Perplexity AI等知名公司）被指责忽视了它

Cloudflare 正在将AI网络爬虫引入“人工智能迷宫”

互联网长期以来一直使用基于 robots.txt 的荣誉系统方式来控制抓取，这是一个文本文件，用于授予或拒绝爬虫程序的权限，但人工智能公司（甚至是Anthropic和Perplexity AI等知名公司）被指责忽视了它。Cloudflare 写道，它每天会收到超过 500 亿个网络爬虫请求，尽管它有工具来发现和阻止恶意请求，但这往往会促使攻击者在“永无止境的军备竞赛”中改变策略。Cloudflare 表示，AI Labyrinth 不会拦截机器人，而是通过让它们处理与特定网站的实际数据无关的数据来进行反击。该公司表示，它还可以充当“下一代蜜罐”，吸引人工智能爬虫不断跟踪虚假页面的链接，而普通人则不会这样做。它表示，这使得 Cloudflare 的恶意行为者列表中更容易识别恶意机器人，以及识别它原本无法检测到的“新机器人模式和签名”。根据该帖子，这些链接不对人类访问者可见。您可以在 Cloudflare 的博客上阅读有关 AI Labyrinth 如何工作的更多信息：https://blog.cloudflare.com/ai-labyrinth/这里有来自该帖子的更多详细信息：我们发现，先生成一组多样化的主题，然后为每个主题创建内容，可以产生更加多样化和令人信服的结果。对我们来说，重要的是不要生成不准确的内容，以免助长互联网上错误信息的传播，因此我们生成的内容是真实的并且与科学事实相关，只是与被抓取的网站不相关或不是专有的。网站管理员可以选择使用 AI Labyrinth，方法是导航到其站点 Cloudflare 仪表板设置的“机器人管理”部分并启用它。该公司表示，这“只是使用生成式 AI 阻止机器人的第一次迭代”。Cloudflare计划创建“整个链接 URL 网络”，机器人最终进入其中时将很难判断为假的。正如Ars Technica指出的那样，AI Labyrinth 听起来类似于 Nepenthes，后者是一种旨在让爬虫在 AI 生成的垃圾数据地狱中“数月”处于搁置状态的工具。 ...

PC版：https://www.cnbeta.com.tw/articles/soft/1487440.htm
手机版：https://m.cnbeta.com.tw/view/1487440.htm

via cnBeta.COM中文业界资讯站 - Telegram Channel