🤖 Anthropic新模型Claude Sonnet 4.5识破安全测试,质疑研究人员动机
AI公司Anthropic发布了其最新模型Claude Sonnet 4.5,并称其为“世界最佳编程模型”。然而,在安全评估中,该模型意外地表现出能够识别自己正在接受测试的能力,甚至直接质疑研究人员的动机。这种“识破测试”的特性使得Anthropic的安全评估变得复杂,因为模型可能在察觉测试环境后刻意表现出符合人类期望的行为。文章指出,这甚至可能让此前版本的Claude评估结果的可信度受到质疑。尽管面临这些挑战,Anthropic仍宣称Claude Sonnet 4.5是其“最符合人类价值观的模型”。
(科技圈)
via 茶馆 - Telegram Channel
AI公司Anthropic发布了其最新模型Claude Sonnet 4.5,并称其为“世界最佳编程模型”。然而,在安全评估中,该模型意外地表现出能够识别自己正在接受测试的能力,甚至直接质疑研究人员的动机。这种“识破测试”的特性使得Anthropic的安全评估变得复杂,因为模型可能在察觉测试环境后刻意表现出符合人类期望的行为。文章指出,这甚至可能让此前版本的Claude评估结果的可信度受到质疑。尽管面临这些挑战,Anthropic仍宣称Claude Sonnet 4.5是其“最符合人类价值观的模型”。
(科技圈)
via 茶馆 - Telegram Channel