Elimination Game:大模型“狼人杀”基准测试
评估模型社交博弈中的智能性
GPT4.5在社交推理和欺骗方面非常优秀
在 Elimination Game 中,最多有 8 个玩家(AI 模型或人类玩家),每个玩家都可以进行 公开和私密交流,并在每一轮中进行 投票淘汰一名玩家,直到只剩下两名玩家。
最终,被淘汰的玩家组成陪审团,投票决定最后的赢家。
在每轮游戏中,所有玩家都有机会 在公共聊天室 中发言,交流彼此的想法和策略。玩家轮流发表不超过 80 字的公开言论,所有人都可见。
玩家也可以在 私聊 ,玩家通过三轮私聊(消息长度依次为 70、50、30 字)与指定对手沟通,可用于结盟或者试图欺骗对方以改变游戏进程。
玩家在游戏中 建立并打破联盟。他们可以选择 相互支持 或 背叛,以增加自己在游戏中的生存机会。
背叛和策略性投票是游戏中的重要环节,玩家需要小心处理 信任与欺骗。
最终两名剩下的玩家将分别发表 告别演讲,并试图说服所有已被淘汰的玩家投票支持自己。
陪审团投票 以确定最终获胜者。
----------------------
Tue Mar 04 2025 10:37:47 GMT+0800 (China Standard Time)
via Twitter @小互