近日,OpenAI首席执行官萨姆·奥特曼发布了一则内部通告,宣告公司进入“Code Red”(红色警报)紧急状态。
表面上,这是OpenAI针对谷歌和Anthropic等强劲竞争对手的应急反应。
但更深层的问题在于,OpenAI正面临整个行业无法回避的技术挑战:训练成本飞速上涨,模型规模持续扩展,但性能改善却日趋有限。
依据斯坦福大学《2025年AI指数报告》,2019年至2022年期间,训练成本每增加10倍,模型在主流基准测试中的性能平均提升25%-35%。然而,2023年之后,同样的10倍成本投入,性能提升仅剩10%-15%。
更严峻的是,2024年以来,即便训练成本翻倍,性能提升通常不足5%,投入产出比呈现断崖式下滑。
各大头部模型的表现渐趋一致,仿佛共同撞上了一层无形的天花板。
这引发了AI学术界与产业界的热烈争议:大语言模型是否已步入死胡同?
从用户数据观察,OpenAI的领先优势已开始松动。
谷歌的Gemini 3模型在基准测试中超越OpenAI,促使Gemini月活用户激增。谷歌第三季度财报显示,Gemini月活已从7月的4.5亿增长至10月的6.5亿。
同时,Anthropic的Claude在企业客户中愈发受欢迎。根据OpenRouter数据,截至2025年11月底,Claude周访问量达0.41亿人次,较六周前上升17.1%。
但更严峻的消息接踵而至。
据半导体行业分析公司SemiAnalysis披露,自2024年5月GPT-4o发布后,OpenAI顶尖研究人员再未成功完成一次大规模全面预训练。
这意味着GPT-5与GPT-4o之间并无真正的代际升级,更像是基于GPT-4o的微调优化,而非全新训练的模型。
SemiAnalysis在分析中进一步指出:“预训练前沿模型是AI研发中最艰巨、资源最密集的挑战。谷歌的TPU平台已决定性通过测试,但OpenAI未能做到。”
预训练是训练大语言模型的首步,也是最关键环节。在此阶段,模型需在海量文本数据中学习语言基本规律,如语法、语义和事实知识等。
无法完成大规模预训练,便无法升级至下一代模型,这对必须保持技术领先的OpenAI而言是致命打击。
MMLU跑分进一步支持SemiAnalysis观点。其全称为大规模多任务语言理解(Massive Multitask Language Understanding),是评估大模型综合知识与推理能力的核心权威基准测试。
结果显示,GPT-5的MMLU评分仅比GPT-4提高10%-20%。
值得注意的是,Anthropic CEO达里奥·阿莫迪曾公开表示,2024-2025年期间的大模型训练成本达10亿至20亿美元,是一年前的10倍。而GPT-5成本比GPT-4(约6000万-1亿美元)高出约20-30倍。
面对双重困境,奥特曼不得不调整策略,聚焦优化现有产品。
奥特曼在备忘录中称,公司需改进ChatGPT的个性化功能、提升速度与可靠性、扩展其可回答问题范围。
为此,OpenAI决定推迟广告、健康和购物AI代理、名为Pulse的个人助手等项目开发,鼓励员工临时调岗,每日召开专门会议讨论ChatGPT改进。
此前,OpenAI曾于2025年10月拉响“Code Orange”(橙色警报)。
OpenAI内部警报分三个级别:黄色、橙色、红色。颜色越红,代表事态越严重。拉响警报的标准基于当前市场竞争压力与产品危机。
橙色警报对应明确竞争威胁或产品危机,核心业务已现“被动局面”,如市场份额被蚕食、用户流失。需OpenAI“局部资源倾斜”应对。
当时OpenAI做法是成立“应急优化小组”,由产品、技术、算法核心负责人牵头,调配50%以上研发资源聚焦核心产品。
但OpenAI并非唯一陷入瓶颈的公司,整个行业面临相同困境。
从2024年底到2025年初,顶尖大模型性能提升曲线明显平缓。根据LMSYS Chatbot Arena盲测数据,2024年6月,排名第一与第十的模型间Elo评分差距超150分。
但到2025年11月,差距已缩至不足50分。更显著的是,几乎所有主流模型在关键基准测试得分都集中在狭窄区间。这种趋势意味着,即便各公司投入资源差异巨大(从数千万到数十亿美元),最终模型性能却越发相似。
2023年3月,OpenAI发布GPT-4时,其在MMLU测试得分确为86.4%。而当时主流竞争对手成绩多集中在60%-75%区间,如同期Claude v1得分仅75.6%,LLaMA-65只有63.4%。
但到2025年9月MMLU-Pro(MMLU进阶版评测基准,评分更严格)中,所有头部模型得分均在85%到90%,几乎无差别。
从更新频率看,Meta的Llama模型从第二代到第三代间隔约9个月,而Llama 3到计划推出的Llama 4间隔已超15个月;Anthropic从Claude 3到Claude 4间隔也长达11个月。
种种迹象表明,曾被视为大语言模型黄金定律的Scaling Law正失效。
造成此结果的原因,正源于大模型自身。
大模型训练核心任务是“预测下一个词”。
通过在海量文本上反复训练此任务,模型逐渐掌握语法、常识和推理能力等。当模型足够强大,理解语法和常识后,语言本身不确定性成为影响输出结果的变量。
例如:“他把苹果放在桌子上,然后它就不见了。”此处“它”指苹果还是桌子?语法上,两种理解皆通。要明确“它”指代何物,需的不是更好语法知识,而是对现实世界的常识判断。
但若换种说法:“他把手机放在桌子上,然后它就倒了。”此处“它”可能是手机或桌子。若是廉价折叠桌,确可能因放手机而倒;若手机壳打开,手机本身也可能倒。缺乏足够上下文,连人类也难准确判断。
这种由语言歧义和不确定性导致的误差,统计学上称“不可约误差”(Irreducible Error),或“贝叶斯误差率”(Bayes Error Rate)。
即便有完美算法、无限数据和算力,此误差也无法消除,它是问题固有特性。
人类语言充满此类不确定性。日常交流中,许多信息依赖语境、肢体语言、声调、共同背景知识传递。若只留纯文本,信息损失巨大。
大语言模型训练纯文本,故天生面临不可约误差限制。
当模型较弱时,会犯诸多低级错误,如语法错误、事实错误、逻辑错误。解决这些可通过增加数据、扩大模型、改进算法实现。但当模型足够强,不再犯低级错误时,剩余错误主要是这种不可约的、语言本身特性造成的误差。
至此阶段,无论如何投入资金资源,提升也有限。
第二个问题是数据枯竭。到GPT-4时,OpenAI几乎已学完互联网上所有高质量文本。各类百科、数字图书馆、GitHub代码、Reddit讨论、专业论文和文档等。
可用高质量数据基本耗尽。剩余是大量低质内容,如广告软文、垃圾帖子、重复内容、机器生成垃圾信息。
为解决数据不足,部分厂商开始用AI生成数据训练AI。但这导致严重问题,称“模型崩溃”(Model Collapse)。简言之,若模型只消费自身或其他模型产出数据,其多样性会下降,甚至放大自身错误与偏见,最终使模型变笨,输出趋单调。
此过程类似生物学近亲繁殖。生物界中,若种群长期近亲繁殖,基因多样性渐失,遗传缺陷被放大,终致种群退化。模型崩溃同理。
2024年《Nature》期刊论文《当 AI 模型在递归生成的数据上训练时,会出现性能崩溃》(AI models collapse when trained on recursively generated data),系统研究此问题。研究人员发现,早期模型崩溃阶段,模型会先丢失数据分布尾部信息。后期,整个数据分布收敛至极窄范围,与原始数据几乎无相似。
研究人员实验:用预训练语言模型生成一批文本,以此文本训练新模型,再用新模型生成文本,训练更新模型……反复几代后,模型输出越发单调、重复,原始数据中低频但重要信息(如专业领域知识、小众正确观点)逐渐消失。
每代模型生成数据时,倾向于生成训练数据中最常见、最“安全”内容。那些低频、边缘信息,在生成数据中出现概率更低。经几代迭代,这些信息彻底丢失。
更麻烦的是,现今互联网已充斥大量AI生成内容。ChatGPT发布后,网络文章、社交媒体帖子、甚至学术论文,都出现越多AI生成痕迹。
若未来模型通过爬取互联网获取训练数据,不可避免会包含这些AI生成内容。这意味着,模型崩溃不再仅是实验室理论问题,而是整个AI行业将面临的实际威胁。
关于大语言模型是否进入死胡同,此问题一直争议不断。
以AI教母李飞飞为代表的维新派认为:大语言模型非万能,仅是AI系统中一组件。要实现真正人工智能,需将不同类型任务分配给不同模型。
李飞飞曾直言,AGI是营销术语,非科学术语。当前真正缺失非“通用智能”,而是“空间智能”,即理解与操作三维物理世界能力。
她认为,未来AI系统可能是“世界模型”(World Model)。其核心能力是理解三维空间、物理规律和因果关系。它非通过学习文本理解世界,而是通过观察视频、图像、传感器数据建立对物理世界认知。
世界模型使用严格逻辑规则和数学证明技术,而非像现大语言模型依赖统计模式。
谷歌DeepMind开发的AlphaGeometry即此方向例子,它能解决奥林匹克竞赛级几何问题,靠的非语言模型,而是符号推理系统与神经网络结合。
图灵奖得主、Meta前首席AI科学家杨立昆(Yann LeCun)对语言模型路径批评更直接。他形容此路径是“给鹦鹉喂更大芯片”。
在他看来,语言模型仅在学习统计规律,做模式匹配,并未真正理解世界。要实现真正智能,必须让AI建立对物理世界模型,理解物体、空间、时间、因果关系等基本概念。
届时,大语言模型将成为“翻译官”。当用户用自然语言提出需求时,大语言模型负责理解需求,将其翻译成机器可处理指令,分配给适合子系统如世界模型执行。
任务完成后,大语言模型再将结果翻译成自然流畅人类语言输出给用户。
OpenAI和Anthropic则是守旧派。
奥特曼认为,只要继续放大语言模型,投入更多数据算力,智能就会“自动涌现”。
他相信,当模型规模达某临界点时,会突然展现质的飞跃,获得真正理解与推理能力。此观点业内称“scaling hypothesis”(规模假说)。
OpenAI联合创始人兼首席科学家伊尔亚·苏兹科维(Ilya Sutskever)观点是压缩即理解。
他坦言,“若能将全世界数据无损压缩进大语言模型神经网络,那么模型就在内部构建出关于世界的真实模型。”
Anthropic联合创始人杰拉德·卡普兰(Jared Kaplan)则认为语言模型本身可能非智能,但可成为智能基础。他认为通过改进训练方法、增强安全性对齐、结合其他技术,语言模型路径仍有潜力达到AGI。
MIT认知学家伊芙琳娜·费多林柯(Evelina Fedorenko)及多位MIT和伯克利学者,在《Nature》期刊发文指出:语言非思维,人类思维独立于语言。婴儿在学会说话前已有对物理世界理解、对因果关系认知。盲人与聋人虽缺失某些感官通道,但思维能力不受影响。
语言主要是交流工具而非思维工具,语言模型也就不可能是真正人工智能。
本文由主机测评网于2026-02-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260222177.html