当前位置：首页 > 科技资讯 > 正文

OpenAI拉响红色警报：大语言模型遭遇技术瓶颈与行业困境

主机测评网
科技资讯
2026-02-01
406

近日，OpenAI首席执行官萨姆·奥特曼发布了一则内部通告，宣告公司进入“Code Red”（红色警报）紧急状态。

表面上，这是OpenAI针对谷歌和Anthropic等强劲竞争对手的应急反应。

但更深层的问题在于，OpenAI正面临整个行业无法回避的技术挑战：训练成本飞速上涨，模型规模持续扩展，但性能改善却日趋有限。

依据斯坦福大学《2025年AI指数报告》，2019年至2022年期间，训练成本每增加10倍，模型在主流基准测试中的性能平均提升25%-35%。然而，2023年之后，同样的10倍成本投入，性能提升仅剩10%-15%。

更严峻的是，2024年以来，即便训练成本翻倍，性能提升通常不足5%，投入产出比呈现断崖式下滑。

各大头部模型的表现渐趋一致，仿佛共同撞上了一层无形的天花板。

这引发了AI学术界与产业界的热烈争议：大语言模型是否已步入死胡同？

01

从用户数据观察，OpenAI的领先优势已开始松动。

谷歌的Gemini 3模型在基准测试中超越OpenAI，促使Gemini月活用户激增。谷歌第三季度财报显示，Gemini月活已从7月的4.5亿增长至10月的6.5亿。

同时，Anthropic的Claude在企业客户中愈发受欢迎。根据OpenRouter数据，截至2025年11月底，Claude周访问量达0.41亿人次，较六周前上升17.1%。

OpenAI拉响红色警报：大语言模型遭遇技术瓶颈与行业困境 OpenAI 大语言模型训练成本性能瓶颈第1张

但更严峻的消息接踵而至。

据半导体行业分析公司SemiAnalysis披露，自2024年5月GPT-4o发布后，OpenAI顶尖研究人员再未成功完成一次大规模全面预训练。

这意味着GPT-5与GPT-4o之间并无真正的代际升级，更像是基于GPT-4o的微调优化，而非全新训练的模型。

SemiAnalysis在分析中进一步指出：“预训练前沿模型是AI研发中最艰巨、资源最密集的挑战。谷歌的TPU平台已决定性通过测试，但OpenAI未能做到。”

预训练是训练大语言模型的首步，也是最关键环节。在此阶段，模型需在海量文本数据中学习语言基本规律，如语法、语义和事实知识等。

无法完成大规模预训练，便无法升级至下一代模型，这对必须保持技术领先的OpenAI而言是致命打击。

MMLU跑分进一步支持SemiAnalysis观点。其全称为大规模多任务语言理解（Massive Multitask Language Understanding），是评估大模型综合知识与推理能力的核心权威基准测试。

结果显示，GPT-5的MMLU评分仅比GPT-4提高10%-20%。

值得注意的是，Anthropic CEO达里奥·阿莫迪曾公开表示，2024-2025年期间的大模型训练成本达10亿至20亿美元，是一年前的10倍。而GPT-5成本比GPT-4（约6000万-1亿美元）高出约20-30倍。

面对双重困境，奥特曼不得不调整策略，聚焦优化现有产品。

奥特曼在备忘录中称，公司需改进ChatGPT的个性化功能、提升速度与可靠性、扩展其可回答问题范围。

为此，OpenAI决定推迟广告、健康和购物AI代理、名为Pulse的个人助手等项目开发，鼓励员工临时调岗，每日召开专门会议讨论ChatGPT改进。

此前，OpenAI曾于2025年10月拉响“Code Orange”（橙色警报）。

OpenAI内部警报分三个级别：黄色、橙色、红色。颜色越红，代表事态越严重。拉响警报的标准基于当前市场竞争压力与产品危机。

橙色警报对应明确竞争威胁或产品危机，核心业务已现“被动局面”，如市场份额被蚕食、用户流失。需OpenAI“局部资源倾斜”应对。

当时OpenAI做法是成立“应急优化小组”，由产品、技术、算法核心负责人牵头，调配50%以上研发资源聚焦核心产品。

02

但OpenAI并非唯一陷入瓶颈的公司，整个行业面临相同困境。

从2024年底到2025年初，顶尖大模型性能提升曲线明显平缓。根据LMSYS Chatbot Arena盲测数据，2024年6月，排名第一与第十的模型间Elo评分差距超150分。

但到2025年11月，差距已缩至不足50分。更显著的是，几乎所有主流模型在关键基准测试得分都集中在狭窄区间。这种趋势意味着，即便各公司投入资源差异巨大（从数千万到数十亿美元），最终模型性能却越发相似。

2023年3月，OpenAI发布GPT-4时，其在MMLU测试得分确为86.4%。而当时主流竞争对手成绩多集中在60%-75%区间，如同期Claude v1得分仅75.6%，LLaMA-65只有63.4%。

但到2025年9月MMLU-Pro（MMLU进阶版评测基准，评分更严格）中，所有头部模型得分均在85%到90%，几乎无差别。

从更新频率看，Meta的Llama模型从第二代到第三代间隔约9个月，而Llama 3到计划推出的Llama 4间隔已超15个月；Anthropic从Claude 3到Claude 4间隔也长达11个月。

种种迹象表明，曾被视为大语言模型黄金定律的Scaling Law正失效。

造成此结果的原因，正源于大模型自身。

大模型训练核心任务是“预测下一个词”。

通过在海量文本上反复训练此任务，模型逐渐掌握语法、常识和推理能力等。当模型足够强大，理解语法和常识后，语言本身不确定性成为影响输出结果的变量。

例如：“他把苹果放在桌子上，然后它就不见了。”此处“它”指苹果还是桌子？语法上，两种理解皆通。要明确“它”指代何物，需的不是更好语法知识，而是对现实世界的常识判断。

但若换种说法：“他把手机放在桌子上，然后它就倒了。”此处“它”可能是手机或桌子。若是廉价折叠桌，确可能因放手机而倒；若手机壳打开，手机本身也可能倒。缺乏足够上下文，连人类也难准确判断。

这种由语言歧义和不确定性导致的误差，统计学上称“不可约误差”（Irreducible Error），或“贝叶斯误差率”（Bayes Error Rate）。

即便有完美算法、无限数据和算力，此误差也无法消除，它是问题固有特性。

OpenAI拉响红色警报：大语言模型遭遇技术瓶颈与行业困境 OpenAI 大语言模型训练成本性能瓶颈第2张

人类语言充满此类不确定性。日常交流中，许多信息依赖语境、肢体语言、声调、共同背景知识传递。若只留纯文本，信息损失巨大。

大语言模型训练纯文本，故天生面临不可约误差限制。

当模型较弱时，会犯诸多低级错误，如语法错误、事实错误、逻辑错误。解决这些可通过增加数据、扩大模型、改进算法实现。但当模型足够强，不再犯低级错误时，剩余错误主要是这种不可约的、语言本身特性造成的误差。

至此阶段，无论如何投入资金资源，提升也有限。

第二个问题是数据枯竭。到GPT-4时，OpenAI几乎已学完互联网上所有高质量文本。各类百科、数字图书馆、GitHub代码、Reddit讨论、专业论文和文档等。

可用高质量数据基本耗尽。剩余是大量低质内容，如广告软文、垃圾帖子、重复内容、机器生成垃圾信息。

为解决数据不足，部分厂商开始用AI生成数据训练AI。但这导致严重问题，称“模型崩溃”（Model Collapse）。简言之，若模型只消费自身或其他模型产出数据，其多样性会下降，甚至放大自身错误与偏见，最终使模型变笨，输出趋单调。

此过程类似生物学近亲繁殖。生物界中，若种群长期近亲繁殖，基因多样性渐失，遗传缺陷被放大，终致种群退化。模型崩溃同理。

2024年《Nature》期刊论文《当 AI 模型在递归生成的数据上训练时，会出现性能崩溃》（AI models collapse when trained on recursively generated data），系统研究此问题。研究人员发现，早期模型崩溃阶段，模型会先丢失数据分布尾部信息。后期，整个数据分布收敛至极窄范围，与原始数据几乎无相似。

研究人员实验：用预训练语言模型生成一批文本，以此文本训练新模型，再用新模型生成文本，训练更新模型……反复几代后，模型输出越发单调、重复，原始数据中低频但重要信息（如专业领域知识、小众正确观点）逐渐消失。

每代模型生成数据时，倾向于生成训练数据中最常见、最“安全”内容。那些低频、边缘信息，在生成数据中出现概率更低。经几代迭代，这些信息彻底丢失。

更麻烦的是，现今互联网已充斥大量AI生成内容。ChatGPT发布后，网络文章、社交媒体帖子、甚至学术论文，都出现越多AI生成痕迹。

若未来模型通过爬取互联网获取训练数据，不可避免会包含这些AI生成内容。这意味着，模型崩溃不再仅是实验室理论问题，而是整个AI行业将面临的实际威胁。