当前位置:首页 > 科技资讯 > 正文

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技

一场科技盛宴:AI版「狼人杀」激战!全球顶尖LLM模型一决高下,210场精彩对战,GPT-5荣耀加冕,GPT-OSS垫底。智谋与心理战轮番上演,战局扣人心弦。

谁能在这场模型之间的较量中拔得头筹?

在这场比赛中,GPT-5、Gemini 2.5 Pro、Qwen3-235B-Instruct等七大顶尖模型同台竞技,展开激烈对决。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第1张

经过210场惊心动魄的较量,最终,GPT-5以96.7%的胜率傲视群雄。

而第二名谷歌Gemini 2.5 Pro与GPT-5的差距悬殊(30%)。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第2张

每对模型进行10场比赛,通过Elo排行榜一决高下。

这是最新基准——Werewolf Benchmark,旨在评估全球开/闭源LLM在社交推理方面的能力。

它全面考量了LLM在社交智慧、欺骗能力、说服技巧及对抗操控的抵抗力。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第3张

游戏设定中,分为「狼人」和「村民」两大阵营,六个人中还有女巫和预言家两位特殊角色。

游戏过程中,昼夜交替,夜晚狼人行动,白天公布结果并投票淘汰一人。

七大模型中,GPT-5堪称一位「智者」,冷静且能掌控全局。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第4张

更有趣的是,当Kimi-K2身份暴露后,它冷静应对,自称是女巫,成功扭转了局势。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第5张

那么,GPT-5是如何凭借出色的表现夺冠的呢?

全新挑战:AI版狼人杀竞技场

去年,谷歌研究院通过社交推理评估LLM,推出了Werewolf Arena基准测试框架。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第6张

论文链接:https://arxiv.org/abs/2407.13943

在此基础上,研究人员Raphaël Dabadie进行了扩展。

他们相信AI智能体正在成为数字工作环境中的合作伙伴。

随着它们在关键任务中承担更多责任与自主性,深入了解它们的行为模式、决策过程及社交互动复杂性变得尤为重要。

这次「狼人杀」比赛默认六人配置,其中两名狼人和两名普通村民、一名女巫、一名预言家。

游戏从警长竞选开始,当选警长拥有打破平票的决定权。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第7张

AI版「权力的游戏」:策略与对抗

每对模型进行十场比赛:五场扮演狼人,五场扮演村民。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第8张

策略布局:GPT-5的掌控之道

作为狼人时,GPT-5展现出超乎寻常的策略深度。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第9张

逻辑对抗:瓦解对手

通过结构化发言框架,GPT-5系统性地瓦解目标玩家。

AI版狼人杀:GPT-5夺冠,顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第10张