当前位置:首页 > 科技资讯 > 正文

GPT-5发布:性能未达预期,用户情感依赖成挑战

在GPT-4发布两年半后,OpenAI终于推出了最新旗舰模型GPT-5。尽管业界期待已久,但GPT-5的初次反馈却略显平淡。

与GPT-4发布时同行需长时间追赶不同,GPT-5并未在主流模型中拉开显著差距。部分性能指标甚至落后于马斯克的Grok 4及新发布的Claude Opus 4.1,上下文长度也不及Google的Gemini 2.5 Pro。

普通用户对GPT-5的不满尤为强烈,他们未感受到显著的性能提升,反而更怀念GPT-4。OpenAI原已下架旧模型,但在用户强烈反对下,不得不为Plus用户重新上架GPT-4。

我们或许需正视一个事实:即便如OpenAI这般强大,也需面对Scaling laws(缩放定律)的局限。模型规模的持续扩张不再带来成比例的性能跃迁,迭代周期自然放缓。

从GPT-4到GPT-5间隔29个月,但未见以往从GPT-3到GPT-4时的跨越式提升。过去一年,OpenAI维持着细分模型发布的节奏,用众多型号填补代际更新的真空期。

这些更新均是在性能增长变昂贵背景下的工程创新,GPT-5变得更好用、更可靠,但也越来越缺少惊喜。好在用户并非总需强劲模型,更多用户仅使用基础问答或作为情感伙伴。

ChatGPT用户数破亿速度极快,周活跃用户已达7亿,但更多用户使用免费基础模型。付费订阅用户约为2000万。GPT-5现已开放给所有用户使用,用户界面变得多彩,但Plus用户专属紫色,Pro用户享更尊贵的黑色。

GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第1张

OpenAI未公布GPT-5参数规模。山姆·阿尔特曼表示未来仍会优先考虑训练和算力投入,并甘愿承受较长时间亏损。

性能未显著领先,但仍最全面

马斯克可能是GPT-5发布会最兴奋的人。发布会未结束,他便宣告Grok-4胜利。

在Humanity’s Last Exam测试中,GPT-5 Pro工具启用后准确率为42.0%,略低于Grok 4 Heavy模型的44.4%。马斯克在X上将测试结果对比置顶,称Grok 4 Heavy比GPT-5更聪明,预告年底发布的Grok 5将更强大。

xAI联合创始人吴宇怀也表示自豪,称尽管团队规模小,但在许多方面领先。他称xAI将在未来几周发布更多新模型。

比GPT-5早发布2天的Claude Opus 4.1也在部分测试中超越GPT-5。在SWE-bench Verified测试中,启用深度思考模式的GPT-5得分仅比Claude Opus 4.1领先0.4%。

与性能升级相比,GPT-5成本下降更突出。输入成本仅为1.25美元/百万tokens,较GPT-4下降约一半,nano版本甚至低至0.05美元/百万tokens。

尽管其他模型在部分测试领先,但GPT-5仍是性价比最高、能力最全面的模型之一。在中立评测平台LMArena的最新“竞技场”榜单中,GPT-5位列所有测评项目第一。

GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第2张

OpenAI更重视行业落地应用。发布会更多时间留给GPT-5在编程、写作和医疗等特定行业的升级。

更可靠、更易用

山姆强调GPT-5是最智能的模型,但核心追求是现实世界的实用性和大规模的可访问性/可负担性。

GPT-5不仅超越前代模型、响应更快,且对现实场景提问更具实用价值。他们介绍了GPT-5在减少幻觉、提升指令遵循能力和降低模型谄媚性方面的进展。

例如,启用网络搜索时,GPT-5事实错误概率比GPT-4降低近一半。深度思考模式下,事实错误率比GPT-3低约80%。GPT-5也更诚实地面对用户。

GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第3张

过去大模型依赖单一的奖惩式训练(RLHF),容易迎合用户预期给出虚假内容。而GPT-5加入更精细的多维度优化机制。

OpenAI还为GPT-5加入安全补全机制,模型在面临危险问题时不再干脆回答或拒绝。例如了解制作炸药时,GPT-5会告知无法提供具体步骤,但可介绍TNT历史、化学性质、工业用途。

与以往总是谄媚用户的模型相比,GPT-5更中立一些,减少了过度迎合倾向。但一定程度上引发习惯此前模型用户的不满。OpenAI为GPT-5加入4种自定义风格调整,并承诺此后将加入更多个性化调整。

简而言之,这些更新围绕模型可靠性和易用性进行,让用户更放心将AI引入工作流程。研究员称尽管GPT-5性能顶尖,但其真正价值在于实用性。

为何普通用户更喜爱旧模型?

专业开发者对GPT-5充满赞扬,但多数普通用户对更新却不满。与以往通过不同模型提供服务不同,GPT-5采用统一模型策略。

这一设计上线之初即出问题,多数场景下反应和回答不如旧模型。山姆解释称自动切换器故障导致系统无法按需调用高性能推理模式。他称故障已修复并承诺将调整模型切换。

GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第4张 GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第5张 GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第6张 GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第7张 GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第8张 GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第9张 GPT-5发布:性能未达预期,用户情感依赖成挑战 GPT-5 性能升级 用户反馈 情感依赖 第10张