一场科技盛宴:AI版「狼人杀」激战!全球顶尖LLM模型一决高下,210场精彩对战,GPT-5荣耀加冕,GPT-OSS垫底。智谋与心理战轮番上演,战局扣人心弦。
谁能在这场模型之间的较量中拔得头筹?
在这场比赛中,GPT-5、Gemini 2.5 Pro、Qwen3-235B-Instruct等七大顶尖模型同台竞技,展开激烈对决。
经过210场惊心动魄的较量,最终,GPT-5以96.7%的胜率傲视群雄。
而第二名谷歌Gemini 2.5 Pro与GPT-5的差距悬殊(30%)。
每对模型进行10场比赛,通过Elo排行榜一决高下。
这是最新基准——Werewolf Benchmark,旨在评估全球开/闭源LLM在社交推理方面的能力。
它全面考量了LLM在社交智慧、欺骗能力、说服技巧及对抗操控的抵抗力。
游戏设定中,分为「狼人」和「村民」两大阵营,六个人中还有女巫和预言家两位特殊角色。
游戏过程中,昼夜交替,夜晚狼人行动,白天公布结果并投票淘汰一人。
七大模型中,GPT-5堪称一位「智者」,冷静且能掌控全局。
更有趣的是,当Kimi-K2身份暴露后,它冷静应对,自称是女巫,成功扭转了局势。
那么,GPT-5是如何凭借出色的表现夺冠的呢?
去年,谷歌研究院通过社交推理评估LLM,推出了Werewolf Arena基准测试框架。
论文链接:https://arxiv.org/abs/2407.13943
在此基础上,研究人员Raphaël Dabadie进行了扩展。
他们相信AI智能体正在成为数字工作环境中的合作伙伴。
随着它们在关键任务中承担更多责任与自主性,深入了解它们的行为模式、决策过程及社交互动复杂性变得尤为重要。
这次「狼人杀」比赛默认六人配置,其中两名狼人和两名普通村民、一名女巫、一名预言家。
游戏从警长竞选开始,当选警长拥有打破平票的决定权。
每对模型进行十场比赛:五场扮演狼人,五场扮演村民。
作为狼人时,GPT-5展现出超乎寻常的策略深度。
通过结构化发言框架,GPT-5系统性地瓦解目标玩家。
本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260440485.html