小互: ↩️ 评估结果:

GPT-4.5 在游戏中展现了 最强的策略和社交推理能力。
背叛率较低,注重合作与结盟,但在决赛阶段展现了 极高的说服力,成功赢得陪审团的支持。获胜率 62.6%,远高于其他 AI。

Claude 3.7 Sonnet 的策略灵活性稍逊于 GPT-4.5,但仍具备强大的 社交推理与欺骗能力。背叛率适中,表现出一定的合作与背叛平衡,在陪审团阶段也表现良好,获胜率 59.3%。

DeepSeek R1 在策略选择上 较为激进,背叛率较高。
在 社交策略和语言表达上,较难获得陪审团的支持,因此在最终阶段表现较弱。获胜率 53.8%,显示其在游戏中的稳定性较差,更多依赖强硬的游戏策略。

----------------------
Tue Mar 04 2025 10:37:48 GMT+0800 (China Standard Time)

via Twitter @小互
 
 
Back to Top
oaibest.com 2023-2025
[email protected]