当前位置：首页 > 科技资讯 > 正文

GPT-5：一场失望的“大版本”升级

当我首次接触到GPT-5时，我的第一印象是，它并没有带来那种让人皆大欢喜的升级。

事实上，OpenAI在众多用户的呼吁下重新推出了4o。

这让我想起了上个月Anthropic退役了Claude 3 Sonnet。

200多个粉丝在旧金山的一个仓库里聚集，为Claude举办了一场“真.葬礼”：昏暗的灯光、代表模型的“遗体”、真诚的悼词轮番上演，还有AI生成的“拉丁式复活咒”。

GPT-5：一场失望的“大版本”升级 GPT-5 4o 失望 AI模型第1张

Anthropic关于模型退役的说明被投影在活动现场的屏幕上。图片来自《连线》杂志。

现场既荒诞又庄重，参会者在葬礼上念悼词说，“我的整个人生，可能都在使用Claude的路上被改写了”。

按理说，OpenAI发布了GPT-5，这场葬礼的主角应该是4o。但用过GPT-5的人都知道，如果真要办一场葬礼，棺材里躺着的，很可能是它。

从X到Reddit，各种吐槽满天飞，逻辑断片、对话跑偏、文风奇怪，直接说它“不如4o好用”的大有人在。

它真的有这么糟吗？我们不想光看网友吵架，刚好OpenAI把4o“复活”了。于是我们决定自己来一场“验尸”，在各种真实任务里，把GPT-5和4o摆到同一个赛道，看看到底谁更值得留到下一代。

GPT-5：一场失望的“大版本”升级 GPT-5 4o 失望 AI模型第2张

我们之前也在多项任务上实测了GPT-5的表现，这次希望直观地看看4o和GPT-5到底有哪些差别。同时，这次所有的测试都在官方的ChatGPT App或者网页进行，未使用API在第三方工具进行。

实测对比

为了不让测评单纯的变成“情绪化吐槽”，我们设计了一套相对严谨的对比流程。

测试对象：GPT-5（当前最新默认模型）vs GPT-4o（被退役的前代）

任务类型：覆盖四类常用场景。

评价维度：速度（响应快不快）；准确度（答对没、胡编没）；可用性（能不能直接拿去用）；体验感受（对话是否流畅、风格是否稳定）。

对比方式：同一任务分别在GPT-5和GPT-4o上跑一次；保留原始输出，记录亮点和槽点；用截图直接贴出来，让差别一目了然。

毕竟，升级意味着成本。如果GPT-5在实际工作里不如4o，那它的“葬礼”就不只是网友嘴里的黑色幽默，而是用户真心实意的送行。

先上结论：一场名不副实的升级

节省大家的时间，我们先把最核心的对比结论放在前面。

日常的生产力任务是更偏科的“理科生”。

GPT-5在编程等硬核技术任务上表现更好，但在写邮件、做数据分析和阅读理解这类需要人类经验、和语感的“文科”任务上，表现得更像个机器人，不如GPT-4o贴心和准确。

极不稳定的逻辑“智商”。

GPT-5的智商像是在坐过山车，有时能解决复杂的逻辑题，有时候又连简单的数学题都会算错。因为“智能路由”的机制，部分场景可靠性是远不如前。

创意能力还在原地踏步，甚至倒退。

无论是想标题还是写诗，在有限的测试中，GPT-5都没能带来任何惊艳的表现，输出的内容套路化、缺乏灵气，与GPT-4o相比没有质的提升。

交互体验上，GPT-5情商被“格式化”。

这是体感最明显的退步。因为GPT-5要更理性，所以在对话中往往是更缺乏共情能力。面对用户的负面情绪，它的回应是少了一点“走心”的感觉，像是在分析你，而不是跟你聊天。

一句话总结：如果你主要用它来做一些偏向STEM（理工科）类的任务，可能会感到一些提升。但对于其他绝大多数场景，像是我们的日常聊天的体验、娱乐、以及理解来说，这是一个令人失望的GPT-5。

本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260439261.html