当前位置:首页 > 科技资讯 > 正文

OpenAI拉响红色警报:大语言模型遭遇技术瓶颈与行业困境

近日,OpenAI首席执行官萨姆·奥特曼发布了一则内部通告,宣告公司进入“Code Red”(红色警报)紧急状态。

表面上,这是OpenAI针对谷歌和Anthropic等强劲竞争对手的应急反应。

但更深层的问题在于,OpenAI正面临整个行业无法回避的技术挑战:训练成本飞速上涨,模型规模持续扩展,但性能改善却日趋有限。

依据斯坦福大学《2025年AI指数报告》,2019年至2022年期间,训练成本每增加10倍,模型在主流基准测试中的性能平均提升25%-35%。然而,2023年之后,同样的10倍成本投入,性能提升仅剩10%-15%。

更严峻的是,2024年以来,即便训练成本翻倍,性能提升通常不足5%,投入产出比呈现断崖式下滑。

各大头部模型的表现渐趋一致,仿佛共同撞上了一层无形的天花板。

这引发了AI学术界与产业界的热烈争议:大语言模型是否已步入死胡同?

01

从用户数据观察,OpenAI的领先优势已开始松动。

谷歌的Gemini 3模型在基准测试中超越OpenAI,促使Gemini月活用户激增。谷歌第三季度财报显示,Gemini月活已从7月的4.5亿增长至10月的6.5亿。

同时,Anthropic的Claude在企业客户中愈发受欢迎。根据OpenRouter数据,截至2025年11月底,Claude周访问量达0.41亿人次,较六周前上升17.1%。

OpenAI拉响红色警报:大语言模型遭遇技术瓶颈与行业困境 OpenAI 大语言模型 训练成本 性能瓶颈 第1张

但更严峻的消息接踵而至。

据半导体行业分析公司SemiAnalysis披露,自2024年5月GPT-4o发布后,OpenAI顶尖研究人员再未成功完成一次大规模全面预训练。

这意味着GPT-5与GPT-4o之间并无真正的代际升级,更像是基于GPT-4o的微调优化,而非全新训练的模型。

SemiAnalysis在分析中进一步指出:“预训练前沿模型是AI研发中最艰巨、资源最密集的挑战。谷歌的TPU平台已决定性通过测试,但OpenAI未能做到。”

预训练是训练大语言模型的首步,也是最关键环节。在此阶段,模型需在海量文本数据中学习语言基本规律,如语法、语义和事实知识等。

无法完成大规模预训练,便无法升级至下一代模型,这对必须保持技术领先的OpenAI而言是致命打击。

MMLU跑分进一步支持SemiAnalysis观点。其全称为大规模多任务语言理解(Massive Multitask Language Understanding),是评估大模型综合知识与推理能力的核心权威基准测试。

结果显示,GPT-5的MMLU评分仅比GPT-4提高10%-20%。

值得注意的是,Anthropic CEO达里奥·阿莫迪曾公开表示,2024-2025年期间的大模型训练成本达10亿至20亿美元,是一年前的10倍。而GPT-5成本比GPT-4(约6000万-1亿美元)高出约20-30倍。

面对双重困境,奥特曼不得不调整策略,聚焦优化现有产品。

奥特曼在备忘录中称,公司需改进ChatGPT的个性化功能、提升速度与可靠性、扩展其可回答问题范围。

为此,OpenAI决定推迟广告、健康和购物AI代理、名为Pulse的个人助手等项目开发,鼓励员工临时调岗,每日召开专门会议讨论ChatGPT改进。

此前,OpenAI曾于2025年10月拉响“Code Orange”(橙色警报)。

OpenAI内部警报分三个级别:黄色、橙色、红色。颜色越红,代表事态越严重。拉响警报的标准基于当前市场竞争压力与产品危机。

橙色警报对应明确竞争威胁或产品危机,核心业务已现“被动局面”,如市场份额被蚕食、用户流失。需OpenAI“局部资源倾斜”应对。

当时OpenAI做法是成立“应急优化小组”,由产品、技术、算法核心负责人牵头,调配50%以上研发资源聚焦核心产品。

02

但OpenAI并非唯一陷入瓶颈的公司,整个行业面临相同困境。

从2024年底到2025年初,顶尖大模型性能提升曲线明显平缓。根据LMSYS Chatbot Arena盲测数据,2024年6月,排名第一与第十的模型间Elo评分差距超150分。

但到2025年11月,差距已缩至不足50分。更显著的是,几乎所有主流模型在关键基准测试得分都集中在狭窄区间。这种趋势意味着,即便各公司投入资源差异巨大(从数千万到数十亿美元),最终模型性能却越发相似。

2023年3月,OpenAI发布GPT-4时,其在MMLU测试得分确为86.4%。而当时主流竞争对手成绩多集中在60%-75%区间,如同期Claude v1得分仅75.6%,LLaMA-65只有63.4%。

但到2025年9月MMLU-Pro(MMLU进阶版评测基准,评分更严格)中,所有头部模型得分均在85%到90%,几乎无差别。

从更新频率看,Meta的Llama模型从第二代到第三代间隔约9个月,而Llama 3到计划推出的Llama 4间隔已超15个月;Anthropic从Claude 3到Claude 4间隔也长达11个月。

种种迹象表明,曾被视为大语言模型黄金定律的Scaling Law正失效。

造成此结果的原因,正源于大模型自身。

大模型训练核心任务是“预测下一个词”。

通过在海量文本上反复训练此任务,模型逐渐掌握语法、常识和推理能力等。当模型足够强大,理解语法和常识后,语言本身不确定性成为影响输出结果的变量。

例如:“他把苹果放在桌子上,然后它就不见了。”此处“它”指苹果还是桌子?语法上,两种理解皆通。要明确“它”指代何物,需的不是更好语法知识,而是对现实世界的常识判断。

但若换种说法:“他把手机放在桌子上,然后它就倒了。”此处“它”可能是手机或桌子。若是廉价折叠桌,确可能因放手机而倒;若手机壳打开,手机本身也可能倒。缺乏足够上下文,连人类也难准确判断。

这种由语言歧义和不确定性导致的误差,统计学上称“不可约误差”(Irreducible Error),或“贝叶斯误差率”(Bayes Error Rate)。

即便有完美算法、无限数据和算力,此误差也无法消除,它是问题固有特性。

OpenAI拉响红色警报:大语言模型遭遇技术瓶颈与行业困境 OpenAI 大语言模型 训练成本 性能瓶颈 第2张

人类语言充满此类不确定性。日常交流中,许多信息依赖语境、肢体语言、声调、共同背景知识传递。若只留纯文本,信息损失巨大。

大语言模型训练纯文本,故天生面临不可约误差限制。

当模型较弱时,会犯诸多低级错误,如语法错误、事实错误、逻辑错误。解决这些可通过增加数据、扩大模型、改进算法实现。但当模型足够强,不再犯低级错误时,剩余错误主要是这种不可约的、语言本身特性造成的误差。

至此阶段,无论如何投入资金资源,提升也有限。

第二个问题是数据枯竭。到GPT-4时,OpenAI几乎已学完互联网上所有高质量文本。各类百科、数字图书馆、GitHub代码、Reddit讨论、专业论文和文档等。

可用高质量数据基本耗尽。剩余是大量低质内容,如广告软文、垃圾帖子、重复内容、机器生成垃圾信息。

为解决数据不足,部分厂商开始用AI生成数据训练AI。但这导致严重问题,称“模型崩溃”(Model Collapse)。简言之,若模型只消费自身或其他模型产出数据,其多样性会下降,甚至放大自身错误与偏见,最终使模型变笨,输出趋单调。

此过程类似生物学近亲繁殖。生物界中,若种群长期近亲繁殖,基因多样性渐失,遗传缺陷被放大,终致种群退化。模型崩溃同理。

2024年《Nature》期刊论文《当 AI 模型在递归生成的数据上训练时,会出现性能崩溃》(AI models collapse when trained on recursively generated data),系统研究此问题。研究人员发现,早期模型崩溃阶段,模型会先丢失数据分布尾部信息。后期,整个数据分布收敛至极窄范围,与原始数据几乎无相似。

研究人员实验:用预训练语言模型生成一批文本,以此文本训练新模型,再用新模型生成文本,训练更新模型……反复几代后,模型输出越发单调、重复,原始数据中低频但重要信息(如专业领域知识、小众正确观点)逐渐消失。

每代模型生成数据时,倾向于生成训练数据中最常见、最“安全”内容。那些低频、边缘信息,在生成数据中出现概率更低。经几代迭代,这些信息彻底丢失。

更麻烦的是,现今互联网已充斥大量AI生成内容。ChatGPT发布后,网络文章、社交媒体帖子、甚至学术论文,都出现越多AI生成痕迹。

若未来模型通过爬取互联网获取训练数据,不可避免会包含这些AI生成内容。这意味着,模型崩溃不再仅是实验室理论问题,而是整个AI行业将面临的实际威胁。

03

关于大语言模型是否进入死胡同,此问题一直争议不断。

以AI教母李飞飞为代表的维新派认为:大语言模型非万能,仅是AI系统中一组件。要实现真正人工智能,需将不同类型任务分配给不同模型。

李飞飞曾直言,AGI是营销术语,非科学术语。当前真正缺失非“通用智能”,而是“空间智能”,即理解与操作三维物理世界能力。

她认为,未来AI系统可能是“世界模型”(World Model)。其核心能力是理解三维空间、物理规律和因果关系。它非通过学习文本理解世界,而是通过观察视频、图像、传感器数据建立对物理世界认知。

世界模型使用严格逻辑规则和数学证明技术,而非像现大语言模型依赖统计模式。

谷歌DeepMind开发的AlphaGeometry即此方向例子,它能解决奥林匹克竞赛级几何问题,靠的非语言模型,而是符号推理系统与神经网络结合。

图灵奖得主、Meta前首席AI科学家杨立昆(Yann LeCun)对语言模型路径批评更直接。他形容此路径是“给鹦鹉喂更大芯片”。

OpenAI拉响红色警报:大语言模型遭遇技术瓶颈与行业困境 OpenAI 大语言模型 训练成本 性能瓶颈 第3张

在他看来,语言模型仅在学习统计规律,做模式匹配,并未真正理解世界。要实现真正智能,必须让AI建立对物理世界模型,理解物体、空间、时间、因果关系等基本概念。

届时,大语言模型将成为“翻译官”。当用户用自然语言提出需求时,大语言模型负责理解需求,将其翻译成机器可处理指令,分配给适合子系统如世界模型执行。

任务完成后,大语言模型再将结果翻译成自然流畅人类语言输出给用户。

OpenAI和Anthropic则是守旧派。

奥特曼认为,只要继续放大语言模型,投入更多数据算力,智能就会“自动涌现”。

他相信,当模型规模达某临界点时,会突然展现质的飞跃,获得真正理解与推理能力。此观点业内称“scaling hypothesis”(规模假说)。

OpenAI联合创始人兼首席科学家伊尔亚·苏兹科维(Ilya Sutskever)观点是压缩即理解。

他坦言,“若能将全世界数据无损压缩进大语言模型神经网络,那么模型就在内部构建出关于世界的真实模型。”

Anthropic联合创始人杰拉德·卡普兰(Jared Kaplan)则认为语言模型本身可能非智能,但可成为智能基础。他认为通过改进训练方法、增强安全性对齐、结合其他技术,语言模型路径仍有潜力达到AGI。

MIT认知学家伊芙琳娜·费多林柯(Evelina Fedorenko)及多位MIT和伯克利学者,在《Nature》期刊发文指出:语言非思维,人类思维独立于语言。婴儿在学会说话前已有对物理世界理解、对因果关系认知。盲人与聋人虽缺失某些感官通道,但思维能力不受影响。

语言主要是交流工具而非思维工具,语言模型也就不可能是真正人工智能。