当前位置:首页 > 科技资讯 > 正文

GPT-5:一场失望的“大版本”升级

当我首次接触到GPT-5时,我的第一印象是,它并没有带来那种让人皆大欢喜的升级。

事实上,OpenAI在众多用户的呼吁下重新推出了4o。

这让我想起了上个月Anthropic退役了Claude 3 Sonnet。

200多个粉丝在旧金山的一个仓库里聚集,为Claude举办了一场“真.葬礼”:昏暗的灯光、代表模型的“遗体”、真诚的悼词轮番上演,还有AI生成的“拉丁式复活咒”。

GPT-5:一场失望的“大版本”升级 GPT-5 4o 失望 AI模型 第1张

Anthropic关于模型退役的说明被投影在活动现场的屏幕上。图片来自《连线》杂志。

现场既荒诞又庄重,参会者在葬礼上念悼词说,“我的整个人生,可能都在使用Claude的路上被改写了”。

按理说,OpenAI发布了GPT-5,这场葬礼的主角应该是4o。但用过GPT-5的人都知道,如果真要办一场葬礼,棺材里躺着的,很可能是它。

从X到Reddit,各种吐槽满天飞,逻辑断片、对话跑偏、文风奇怪,直接说它“不如4o好用”的大有人在。

它真的有这么糟吗?我们不想光看网友吵架,刚好OpenAI把4o“复活”了。于是我们决定自己来一场“验尸”,在各种真实任务里,把GPT-5和4o摆到同一个赛道,看看到底谁更值得留到下一代。

GPT-5:一场失望的“大版本”升级 GPT-5 4o 失望 AI模型 第2张

我们之前也在多项任务上实测了GPT-5的表现,这次希望直观地看看4o和GPT-5到底有哪些差别。同时,这次所有的测试都在官方的ChatGPT App或者网页进行,未使用API在第三方工具进行。

实测对比

为了不让测评单纯的变成“情绪化吐槽”,我们设计了一套相对严谨的对比流程。

测试对象:GPT-5(当前最新默认模型)vs GPT-4o(被退役的前代)

任务类型:覆盖四类常用场景。

  • 日常生产力(写稿、润色、数据分析);
  • 知识与推理(复杂逻辑、时间敏感事实、多步骤执行);
  • 创意生成(标题、跨领域创作、图像提示词);
  • 交互体验(多轮对话、角色扮演、情绪应对)。

评价维度:速度(响应快不快);准确度(答对没、胡编没);可用性(能不能直接拿去用);体验感受(对话是否流畅、风格是否稳定)。

对比方式:同一任务分别在GPT-5和GPT-4o上跑一次;保留原始输出,记录亮点和槽点;用截图直接贴出来,让差别一目了然。

毕竟,升级意味着成本。如果GPT-5在实际工作里不如4o,那它的“葬礼”就不只是网友嘴里的黑色幽默,而是用户真心实意的送行。

先上结论:一场名不副实的升级

节省大家的时间,我们先把最核心的对比结论放在前面。

日常的生产力任务是更偏科的“理科生”。

GPT-5在编程等硬核技术任务上表现更好,但在写邮件、做数据分析和阅读理解这类需要人类经验、和语感的“文科”任务上,表现得更像个机器人,不如GPT-4o贴心和准确。

极不稳定的逻辑“智商”。

GPT-5的智商像是在坐过山车,有时能解决复杂的逻辑题,有时候又连简单的数学题都会算错。因为“智能路由”的机制,部分场景可靠性是远不如前。

创意能力还在原地踏步,甚至倒退。

无论是想标题还是写诗,在有限的测试中,GPT-5都没能带来任何惊艳的表现,输出的内容套路化、缺乏灵气,与GPT-4o相比没有质的提升。

交互体验上,GPT-5情商被“格式化”。

这是体感最明显的退步。因为GPT-5要更理性,所以在对话中往往是更缺乏共情能力。面对用户的负面情绪,它的回应是少了一点“走心”的感觉,像是在分析你,而不是跟你聊天。

一句话总结:如果你主要用它来做一些偏向STEM(理工科)类的任务,可能会感到一些提升。但对于其他绝大多数场景,像是我们的日常聊天的体验、娱乐、以及理解来说,这是一个令人失望的GPT-5。