维基百科正与人工智能机器人爬虫作斗争
维基媒体基金会周三表示,自2024年1月以来,从维基共享资源下载多媒体的带宽消耗激增了 50%。该机构在周二的一篇博客文章中写道,其原因并不在于人类对知识的渴求日益增长,而是来自那些想要训练人工智能模型的自动化、数据饥渴的抓取工具。文章写道:“我们的基础设施是为了应对高关注度事件期间人类的突发流量高峰而设计的,但爬虫机器人产生的流量是前所未有的,并且带来了越来越大的风险和成本。”维基百科表示经过仔细观察,其65%的资源消耗流量来自机器人。这已对网站可靠性团队造成了持续的干扰,团队必须一直阻止爬虫,以免它们显著降低实际读者的页面访问速度。
—— Engadget、Techcrunch
via 风向旗参考快讯 - Telegram Channel
维基媒体基金会周三表示,自2024年1月以来,从维基共享资源下载多媒体的带宽消耗激增了 50%。该机构在周二的一篇博客文章中写道,其原因并不在于人类对知识的渴求日益增长,而是来自那些想要训练人工智能模型的自动化、数据饥渴的抓取工具。文章写道:“我们的基础设施是为了应对高关注度事件期间人类的突发流量高峰而设计的,但爬虫机器人产生的流量是前所未有的,并且带来了越来越大的风险和成本。”维基百科表示经过仔细观察,其65%的资源消耗流量来自机器人。这已对网站可靠性团队造成了持续的干扰,团队必须一直阻止爬虫,以免它们显著降低实际读者的页面访问速度。
—— Engadget、Techcrunch
via 风向旗参考快讯 - Telegram Channel