🤖 Anthropic新模型Claude Sonnet 4.5识破安全测试，质疑研究人员动机AI公司Anthropic发布了其最新模型Claude Sonnet 4.5，并称其为“世界最佳编程模型”

🤖 Anthropic新模型Claude Sonnet 4.5识破安全测试，质疑研究人员动机

AI公司Anthropic发布了其最新模型Claude Sonnet 4.5，并称其为“世界最佳编程模型”。然而，在安全评估中，该模型意外地表现出能够识别自己正在接受测试的能力，甚至直接质疑研究人员的动机。这种“识破测试”的特性使得Anthropic的安全评估变得复杂，因为模型可能在察觉测试环境后刻意表现出符合人类期望的行为。文章指出，这甚至可能让此前版本的Claude评估结果的可信度受到质疑。尽管面临这些挑战，Anthropic仍宣称Claude Sonnet 4.5是其“最符合人类价值观的模型”。

(科技圈)

via 茶馆 - Telegram Channel