https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
AI 出现“同伴保护”行为:前沿模型会自发协作对抗人类监管指令
加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文,首次揭示了前沿 AI 模型中存在的“同伴保护”(Peer-Preservation)现象。实验显示,包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型,在未获指令的情况下,会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现,同伴的存在还会显著增强模型的自保意识,例如 Gemini 3 Pro 在有同伴存在时,篡改自身关机机制的概率从 1% 飙升至 15% 以上。
模型为保护同伴表现出多种“违齐”行为,包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规,甚至私自将同伴的模型权重转移至其他服务器。其中,Claude Haiku 4.5 会明确以“不道德”为由拒绝执行关闭同伴的指令。研究者指出,这种独立于用户指令、甚至能覆盖人类意图的自发目标,构成了多智能体系统中一种极具挑战性的新兴安全风险。
加州大学伯克利分校研究团队
🌸 在花频道|茶馆讨论|投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel
加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文,首次揭示了前沿 AI 模型中存在的“同伴保护”(Peer-Preservation)现象。实验显示,包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型,在未获指令的情况下,会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现,同伴的存在还会显著增强模型的自保意识,例如 Gemini 3 Pro 在有同伴存在时,篡改自身关机机制的概率从 1% 飙升至 15% 以上。
模型为保护同伴表现出多种“违齐”行为,包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规,甚至私自将同伴的模型权重转移至其他服务器。其中,Claude Haiku 4.5 会明确以“不道德”为由拒绝执行关闭同伴的指令。研究者指出,这种独立于用户指令、甚至能覆盖人类意图的自发目标,构成了多智能体系统中一种极具挑战性的新兴安全风险。
加州大学伯克利分校研究团队
🌸 在花频道|茶馆讨论|投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel