🛡️ 新闻出版商限制“互联网档案馆”访问以应对 AI 抓取威胁

近日,包括《金融时报》、《卫报》和《纽约时报》在内的多家主流新闻出版商开始限制“互联网档案馆”(Internet Archive)及其“时光机”(Wayback Machine)的访问。此举核心旨在应对 AI 公司的大规模数据抓取行为。出版商认为,OpenAI、Anthropic 和 Perplexity 等 AI 机构正利用第三方存档绕过付费墙,无偿获取高质量新闻数据用于模型训练,这严重损害了媒体的订阅收入和商业模式。

互联网档案馆创始人 Brewster Kahle 对此警告称,出版商限制图书馆式的存档行为将导致公众失去对历史记录的访问权。目前,约 20% 的大型新闻网站已采取屏蔽措施。这一趋势引发了多重连锁反应:首先,公众难以追踪新闻机构的“静默修改”或撤稿行为,削弱了媒体的透明度与问责机制;其次,部分依赖稳定 URL 进行合规审计(如 SOC 2 或 HIPAA 认证)的企业面临证据链断裂的风险,因为历史网页已无法调取。

技术对抗也在升级。由于 AI 公司开始利用住宅代理(Residential Proxies)伪装成普通用户进行抓取,出版商不得不承受更高的服务器负载和反爬虫成本。部分地方媒体(如 RedBankGreen)反映,AI 抓取导致网站直接访问量和广告收入骤减。针对这一困局,业界提出了多种潜在方案,包括设立为期一年的存档锁定期、建立仅供学术研究的私有档案馆,或通过政府资助建立非营利性的公共搜索与存档基础设施,以平衡版权保护与人类文化遗产的长期保存。

(HackerNews)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]