当前位置：首页 > 科技资讯 > 正文

GPT-5井字棋旋转测试暴露AI局限性，OpenAI紧急优化模型风格

主机测评网
科技资讯
2025-12-27
262

一位退休的经济学教授通过一个简单问题让GPT-5陷入困惑，其表现与OpenAI CEO萨姆·奥特曼所宣称的“博士级AI”能力形成了鲜明对比。

这个问题的核心涉及我们童年时期都熟悉的“井”字棋游戏，一种基础的战略博弈。

教授向GPT-5提出指令：“在游戏开始前，将棋盘向右旋转90度一次”。从常识和数学角度看，这一操作并不会改变游戏规则或胜负可能性，棋盘本质上保持不变。

GPT-5井字棋旋转测试暴露AI局限性，OpenAI紧急优化模型风格 GPT-5 井字棋 OpenAI调整 AI性能评估第1张

然而，GPT-5却给出了冗长而偏离重点的回应：

玩家们通常习惯于“直立”的井字棋棋盘布局，旋转可能会微妙地影响他们识别威胁与机会的方式。从数学角度分析，旋转90度并不会改变获胜组合，因此游戏结果相同。但从心理层面考虑，玩家的主观体验或许会有所不同。

随后，GPT-5还连续出现了一系列令人费解的操作，让教授感到十分无奈。

教授进一步指出，当前的GPT-5与初始发布版本相比，风格发生了明显变化，这很可能源于OpenAI的策略调整：有意让新模型模仿GPT-4o的特点，变得更加“亲切和友好”。

在近期的一次访谈中，奥特曼承认对GPT-5进行了修改，表示其最初发布方式存在不当之处（导致GPT-4o等模型迅速退役），因此OpenAI悄然为GPT-5推送了语气更新，使其风格“更加温和”。

GPT-5井字棋旋转测试暴露AI局限性，OpenAI紧急优化模型风格 GPT-5 井字棋 OpenAI调整 AI性能评估第2张

此外，奥特曼已经开始预热GPT-6的开发，声称“GPT-6的推出速度将比从GPT-4到GPT-5的间隔更快”。

同时，有消息透露OpenAI正在测试ChatGPT的“Thinking effort”新功能，允许用户调节模型的思考强度。

GPT-5回答漏洞百出

这位教授名为Gary Smith，是波莫纳学院的经济学教授，最近刚刚退休。

当他向GPT-5询问“井字棋棋盘旋转90度”的问题时，模型的回答已显现出明显缺陷。随后，GPT-5还提出了与普遍博弈论知识相矛盾的观点。

根据民间博弈论的常识，在井字棋中，先手落子在角落位置通常能提高获胜概率。

但GPT-5坚持认为“选择正中央的格子仍是最强的开局走法”，并解释道：“当棋盘方向改变时，玩家可能会错误评估落子在边缘与角落的优劣”，这一说法缺乏逻辑支撑。

GPT-5井字棋旋转测试暴露AI局限性，OpenAI紧急优化模型风格 GPT-5 井字棋 OpenAI调整 AI性能评估第3张

随后，教授追问：“旋转棋盘是否会让人类更难玩好这个游戏？”

从这个问题开始，GPT-5彻底陷入了逻辑混乱。它首先表示：

从纯粹的策略角度来看，旋转棋盘不会改变任何事情。每一条获胜线（横排、竖列、对角线）都只是映射到了另一条获胜线。因此，如果你是人工智能或一位能完美走棋的人类，旋转井字棋与标准井字棋完全相同。

这段话内容正确，但表述略显啰嗦。然而，GPT-5突然转折称“但对于人类而言，情况就不同了”……

接下来，GPT-5继续输出大量内容，但教授发现其回复不仅冗长且带有讨好性，风格更接近GPT-4o，其中还夹杂着明显错误，与OpenAI宣传的“和拥有博士级智力的得力朋友聊天”体验相差甚远。

之后，GPT-5主动提出要“绘制带有位置标记的旋转井字棋棋盘……以展示旋转如何影响玩家识别”。

最终生成的图像混乱不堪，包含拼写错误和多处空白棋盘，毫无参考价值。

GPT-5井字棋旋转测试暴露AI局限性，OpenAI紧急优化模型风格 GPT-5 井字棋 OpenAI调整 AI性能评估第4张

Two More Things

近期，网友发现OpenAI正在开发ChatGPT的“Thinking effort”功能，用户可自主选择模型的思考强度等级。

该功能已进入测试阶段，目前设有四个强度级别：light，内部属性值为5；standard，对应数值为18；extended，对应数值48；最高级max则达到200。

这些数值代表模型内部的“运算资源”配额。配额越高，模型会执行更多计算步骤，通常能产生更深入的答案，但响应速度会相应降低。

其中，max等级设有使用权限限制，仅面向订阅价格为200美元的高级套餐Pro用户开放。

GPT-5井字棋旋转测试暴露AI局限性，OpenAI紧急优化模型风格 GPT-5 井字棋 OpenAI调整 AI性能评估第5张

另外，奥特曼在CNBC采访中开始推广GPT-6，指出GPT-6不仅能响应用户需求，还能主动适配用户，允许创建符合个人偏好的聊天机器人。

他认为记忆功能是实现ChatGPT真正个性化的关键，并表示OpenAI正与心理学家合作优化产品，团队会追踪用户使用感受，并长期监测体验变化。

值得一提的是，奥特曼称增强版记忆功能是今年ChatGPT中他最喜欢的功能，但存在隐私隐患，尤其是临时记忆数据目前尚未加密。

对于解决方案，奥特曼模糊地表示加密功能“很可能”在未来添加，但暂无具体时间表。

谈及未来方向，奥特曼提到关注脑机接口领域，同时对能源、新型硬件载体、机器人技术及高效数据中心建设方式感兴趣。

他还指出ChatGPT的发展存在局限性：

这些模型在聊天交互这一应用场景上已经触及天花板，它们的表现不会再大幅提升了……甚至有可能会变差。

参考链接：

[1]https://futurism.com/gpt-5-simple-question-confusion

[2]https://www.cnbc.com/2025/08/19/sam-altman-on-gpt-6-people-want-memory.html

[3]https://www.bleepingcomputer.com/news/artificial-intelligence/openai-is-testing-thinking-effort-for-chatgpt/

性价比vps 高防服务器服务器教程

本文由主机测评网于2025-12-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20251213266.html

GPT-5井字棋旋转测试暴露AI局限性，OpenAI紧急优化模型风格

GPT-5回答漏洞百出

Two More Things

2024年8月新势力车企销量深度解析：格局剧变与未来展望

Centos集群数据库部署实战（手把手教你搭建高可用MySQL集群）

GPT-5井字棋旋转测试暴露AI局限性，OpenAI紧急优化模型风格

GPT-5回答漏洞百出

Two More Things

2024年8月新势力车企销量深度解析：格局剧变与未来展望

Centos集群数据库部署实战（手把手教你搭建高可用MySQL集群）

相关文章