当前位置:首页 > 科技资讯 > 正文

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破

一场令人振奋的虚拟对决刚刚落幕!

人工智能模型GPT-5化身宝可梦训练师,在直播中经过一小时的激烈对抗,终于战胜了传奇角色赤爷(Red),直播间被“GG”的弹幕淹没。

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第1张

根据推特博主Clad3815发布的最新战报,GPT-5仅用9517步就击败了赤爷,成功通关经典游戏《宝可梦水晶》。

相比之下,其他模型如o3则用了27040步,步数几乎是GPT-5的三倍,效率差距显著。

换算成时间,GPT-5不眠不休连续游戏约202小时(约一周多)即可通关,而o3则需要近一个月。对于普通人类玩家,通常每天玩8小时,通关需5天左右。

这一成就引发玩家热议,许多人留言呼吁GPT-5继续挑战下一代宝可梦游戏!

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第2张

那么,GPT-5是如何实现这一壮举的呢?

赤爷沉默,GPT-5登顶宝可梦巅峰

在《宝可梦水晶》的剧情中,玩家从初始小镇出发,选择初始宝可梦,一路挑战道馆馆主、收集徽章,阻止火箭队的阴谋,最终面对最强训练家——赤红(初代《宝可梦红/蓝》的主角)。

这次,GPT-5扮演了挑战者的角色,像小智一样踏上旅程,并一举击败赤爷,登上了宝可梦世界的顶峰。

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第3张

除了步数上的优势,GPT-5在游戏全程主线任务中都展现出高效推进能力,效率远超o3模型数倍。

(注:在《宝可梦水晶》中,击败最终Boss后玩家仍可自由探索收集宝可梦,因此直播仍在继续。)

例如,在收集全部16枚游戏徽章的关键任务中,GPT-5仅用了9205步,而o3则耗费了22334步。

更令人惊讶的是,从集齐徽章到战胜赤爷,o3还需要近5000步,而GPT-5仅用了312步,加速了十几倍

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第4张

同样,在面对四天王和冠军的剧情中,GPT-5只花了7329步,而o3则用了两倍多的步数(18115步)。

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第5张

此外,在挑战《宝可梦水晶》之前,GPT-5还成功通关了《宝可梦红》(游戏时长约为《宝可梦水晶》的一半)。

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第6张

赤爷的沉默见证了GPT-5以三倍效率的碾压式胜利。

对此,OpenAI总裁兼联合创始人Greg Brockman亲自转发推文,表示认可这一成就!

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第7张

针对GPT-5的出色表现,Clad老哥总结了几个关键原因:

  • 幻觉减少,速度提升:GPT-5的“幻觉”现象明显比o3少,这是其速度大幅提高的主因。
  • 空间推理能力强:o3常试图硬穿墙壁,在复杂区域易迷路,而GPT-5能规划长序列行动,几乎无错误,节省大量时间。
  • 目标规划更优:GPT-5在设定并执行自身目标方面表现卓越。

这是否意味着,GPT-5模型能力的提升,在宝可梦这类复杂游戏环境中得到了充分展现?

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第8张

(让结果再发酵一段时间)

不过,需要指出的是——让大模型玩宝可梦并非新鲜事。

早在GPT-5之前,Google的Gemini和Anthropic的Claude就曾尝试挑战宝可梦游戏。

其中,Gemini 2.5 Pro在今年五月直播中成功通关《宝可梦蓝》,而Claude则进展缓慢,至今仍被困在火箭队剧情中。

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第9张

那么问题来了:为什么AI大模型都青睐这款上世纪发布的怀旧游戏呢?

宝可梦成为新的性能基准测试?

要回答这个问题,首先需了解大模型如何玩宝可梦游戏。

通常,大模型玩宝可梦的基本步骤包括:

  • 提供系统提示,包含游戏操作的具体建议
  • 提供叠加额外信息的游戏截图
  • 提供来自游戏内存(RAM)的关键数据
  • 提供保存文本以便进行长期规划
  • 提供工具将文本指令转换为模拟器按键操作
  • 提供路径规划工具
  • 实现上下文自动清理和定期总结
  • 引入额外的“自我批评”模型(Critic/Guide),定期评审主模型,并通过系统提示帮助避免常见失败模式
GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第10张

此外,大模型还会构建带标记的小地图,帮助在游戏世界中定位,这类似于人类玩家在脑中构建地图的方式。

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第11张

综上所述,我们获得一个基本认识:在宝可梦游戏中,大模型通过多层信息整合、规划、执行与自我纠错,实现了接近人类玩家的决策能力。

因此,宝可梦游戏可作为衡量模型上下文处理能力、决策规划水平及界面控制能力的指标之一。

然而,这场“考试”的参与成本并不低廉。

据网友分析,在GPT-5通关游戏时长仅为《宝可梦水晶》一半的《宝可梦红》过程中,就消耗了约3500美元(约合2.5万人民币)的GPT-5 API额度,平均每个token花费超过4元人民币。

所以,除非你在OpenAI工作,否则想将宝可梦作为性能基准测试,还需先考量自身经济实力。

GPT-5以创纪录效率通关《宝可梦水晶》,人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试 基准评估 第12张

参考链接

[1]https://x.com/Clad3815/status/1959856362059387098

[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s

[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data

[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close