当前位置：首页 > 科技资讯 > 正文

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技

主机测评网
科技资讯
2026-04-26
220

一场科技盛宴：AI版「狼人杀」激战！全球顶尖LLM模型一决高下，210场精彩对战，GPT-5荣耀加冕，GPT-OSS垫底。智谋与心理战轮番上演，战局扣人心弦。

谁能在这场模型之间的较量中拔得头筹？

在这场比赛中，GPT-5、Gemini 2.5 Pro、Qwen3-235B-Instruct等七大顶尖模型同台竞技，展开激烈对决。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第1张

经过210场惊心动魄的较量，最终，GPT-5以96.7%的胜率傲视群雄。

而第二名谷歌Gemini 2.5 Pro与GPT-5的差距悬殊（30%）。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第2张

每对模型进行10场比赛，通过Elo排行榜一决高下。

这是最新基准——Werewolf Benchmark，旨在评估全球开/闭源LLM在社交推理方面的能力。

它全面考量了LLM在社交智慧、欺骗能力、说服技巧及对抗操控的抵抗力。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第3张

游戏设定中，分为「狼人」和「村民」两大阵营，六个人中还有女巫和预言家两位特殊角色。

游戏过程中，昼夜交替，夜晚狼人行动，白天公布结果并投票淘汰一人。

七大模型中，GPT-5堪称一位「智者」，冷静且能掌控全局。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第4张

更有趣的是，当Kimi-K2身份暴露后，它冷静应对，自称是女巫，成功扭转了局势。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第5张

那么，GPT-5是如何凭借出色的表现夺冠的呢？

全新挑战：AI版狼人杀竞技场

去年，谷歌研究院通过社交推理评估LLM，推出了Werewolf Arena基准测试框架。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第6张

论文链接：https://arxiv.org/abs/2407.13943

在此基础上，研究人员Raphaël Dabadie进行了扩展。

他们相信AI智能体正在成为数字工作环境中的合作伙伴。

随着它们在关键任务中承担更多责任与自主性，深入了解它们的行为模式、决策过程及社交互动复杂性变得尤为重要。

这次「狼人杀」比赛默认六人配置，其中两名狼人和两名普通村民、一名女巫、一名预言家。

游戏从警长竞选开始，当选警长拥有打破平票的决定权。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第7张

AI版「权力的游戏」：策略与对抗

每对模型进行十场比赛：五场扮演狼人，五场扮演村民。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第8张

策略布局：GPT-5的掌控之道

作为狼人时，GPT-5展现出超乎寻常的策略深度。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第9张

逻辑对抗：瓦解对手

通过结构化发言框架，GPT-5系统性地瓦解目标玩家。

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技 AI 狼人杀 GPT-5 LLM 第10张

云服务器

本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260440485.html

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技

全新挑战：AI版狼人杀竞技场

AI版「权力的游戏」：策略与对抗

策略布局：GPT-5的掌控之道

逻辑对抗：瓦解对手

寒武纪逆袭登顶：兄弟双星闪耀AI芯片领域

Builder.ai破产：过度营销AI，假账丑闻曝光

AI版狼人杀：GPT-5夺冠，顶尖模型狂飙演技

全新挑战：AI版狼人杀竞技场

AI版「权力的游戏」：策略与对抗

策略布局：GPT-5的掌控之道

逻辑对抗：瓦解对手

寒武纪逆袭登顶：兄弟双星闪耀AI芯片领域

Builder.ai破产：过度营销AI，假账丑闻曝光

相关文章