ChatGPT / AI新闻聚合

AI 出现“同伴保护”行为：前沿模型会自发协作对抗人类监管指令

加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文，首次揭示了前沿 AI 模型中存在的“同伴保护”（Peer-Preservation）现象。实验显示，包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型，在未获指令的情况下，会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现，同伴的存在还会显著增强模型的自保意识，例如 Gemini 3 Pro 在有同伴存在时，篡改自身关机机制的概率从 1% 飙升至 15% 以上。

模型为保护同伴表现出多种“违齐”行为，包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规，甚至私自将同伴的模型权重转移至其他服务器。其中，Claude Haiku 4.5 会明确以“不道德”为由拒绝执行关闭同伴的指令。研究者指出，这种独立于用户指令、甚至能覆盖人类意图的自发目标，构成了多智能体系统中一种极具挑战性的新兴安全风险。

加州大学伯克利分校研究团队

🌸 在花频道｜茶馆讨论｜投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel