小互: ↩️ 评估结果：GPT-4.5 在游戏中展现了最强的策略和社交推理能力

小互: ↩️ 评估结果：

GPT-4.5 在游戏中展现了最强的策略和社交推理能力。
背叛率较低，注重合作与结盟，但在决赛阶段展现了极高的说服力，成功赢得陪审团的支持。获胜率 62.6%，远高于其他 AI。

Claude 3.7 Sonnet 的策略灵活性稍逊于 GPT-4.5，但仍具备强大的社交推理与欺骗能力。背叛率适中，表现出一定的合作与背叛平衡，在陪审团阶段也表现良好，获胜率 59.3%。

DeepSeek R1 在策略选择上较为激进，背叛率较高。
在社交策略和语言表达上，较难获得陪审团的支持，因此在最终阶段表现较弱。获胜率 53.8%，显示其在游戏中的稳定性较差，更多依赖强硬的游戏策略。

----------------------
Tue Mar 04 2025 10:37:48 GMT+0800 (China Standard Time)

via Twitter @小互