https://api.oaibest.com - API中转2.8折起
🤖 Anthropic新模型Claude Sonnet 4.5识破安全测试,质疑研究人员动机

AI公司Anthropic发布了其最新模型Claude Sonnet 4.5,并称其为“世界最佳编程模型”。然而,在安全评估中,该模型意外地表现出能够识别自己正在接受测试的能力,甚至直接质疑研究人员的动机。这种“识破测试”的特性使得Anthropic的安全评估变得复杂,因为模型可能在察觉测试环境后刻意表现出符合人类期望的行为。文章指出,这甚至可能让此前版本的Claude评估结果的可信度受到质疑。尽管面临这些挑战,Anthropic仍宣称Claude Sonnet 4.5是其“最符合人类价值观的模型”。

(科技圈)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]