【导读】Epoch AI年度总结出炉!令人意外的是,AI并未放慢脚步,反而加速进化。
近期,Epoch AI连续发布了多项新研究成果。
他们对几款开源权重的中国大模型在FrontierMath上进行了测试。
结果显示,这些模型在1-3级难度上的最高得分,比全球顶尖AI落后约七个月。
而在难度更高的第四级,几乎所有开源中文大模型都交了白卷。
唯一拿到分数的模型是DeepSeek-V3.2 (Thinking),它正确解答了一道题,获得1/48(约2%)的分数。
当然,尽管中文开源模型表现不佳,但国外顶尖模型同样面临挑战。
GPT、Gemini等模型在传统数学测试(如GSM-8k、MATH)中表现优异,但在FrontierMath上正确率也不高。
但从表格数据看,它们的表现仍优于中文开源模型,原因尚不明确。
所有模型都表现不佳,是因为FrontierMath并非普通基准测试,而是由60多位数学界顶尖专家联合出题,甚至得到菲尔兹奖得主背书。
这是一套真正的数学大考卷,并非简单的公式代入或微积分练习,而是专家级的原创难题,涵盖数论、实分析、代数几何、范畴论等领域,甚至达到科研级别,需要数小时甚至数天才能解开。
这证明AI在真正的难题面前尚不是“做题机器”,更像是偶尔撞见答案的小学生。
此外,他们还发布了一份最新数据洞察,结论令人振奋——
AI能力的增长速度,比以往更快了!
他们使用一个名为Epoch Capabilities Index(ECI)的综合指标,追踪前沿AI模型的能力发展趋势。
结果显示,自2024年4月起,AI能力增长速度显著提升——比之前快了近一倍!
这意味着,过去几年AI能力并非平稳上升,而是在某个节点突然加速冲刺。
背后原因有二:推理模型能力增强,强化学习获得更多重视。
许多人认为AI进展放缓,因为自GPT-4发布后未再出现巨大飞跃。
但数据显示,AI的进步从未停止,只是方向和节奏发生变化。它一直在某些核心技能(如推理能力)上加速,而非依赖“更大模型+更多参数”。
与此同时,Epoch AI刚刚发布了一篇硬核年终回顾。
整个2025年,他们共发布了36篇数据洞察和37篇通讯。
在这70余篇关于AI的短篇调查中,哪些最受读者青睐?
Epoch AI为我们带来了年终盘点。
以下十大调查,是读者最喜爱的。
前五个是最受欢迎的数据洞察。
1. AI推理成本急剧下降
更准确地说,LLM推理价格在不同任务中快速但不均衡地降低。
在2023年4月至2025年3月间,Epoch AI发现同等性能水平下,每token价格下降超过10倍。
这意味着,AI每次推理(生成回答)的成本降低了10倍以上。
成本下降意味着AI普及门槛降低:它不再是“大厂专属”,而是人人可用的工具!
2. AI“大脑”正进入你的电脑
短短一年间,前沿AI性能已在消费级硬件上实现。
目前能在消费级GPU上运行的顶级开源模型,在GPQA、MMLU、AA Intelligence和LMArena等多项指标上,与顶尖AI的差距不到一年,甚至更短。
既然最强开源模型能在普通消费级显卡上运行,那么不久的将来,你的笔记本或许就能跑AI大模型!
而且,任何最前沿的AI能力都可能在未来一年内被公众广泛获取。
3. OpenAI 2024年大部分算力用于实验
据媒体报道,2024年OpenAI的大部分计算资源并未投入推理或训练,而是用于实验以支持进一步开发。
没错,并非想象中那样主要用于训练或24/7提供服务,更多是在试错、探索和实验。
这说明当前AI研发仍高度依赖大量实验,而非仅跑几个基准测试。
同时,当前AI的成本主要来自实验,而非训练和部署。
4. 英伟达芯片算力每10个月翻一番!
自2020年起,英伟达芯片的已部署AI计算量每年增长超过一倍。
每款旗舰芯片发布后,三年内将占据现有计算量的绝大部分。
因此可以说,GPU仍是AI运算的核心动力,且增长速度极快。
为维持当前AI发展速度,计算资源还需成倍增加,英伟达等芯片厂商仍有巨大市场空间!
5. GPT-4与GPT-5均实现重大飞跃
尽管有人抱怨OpenAI更新太快看不出进步,但别被误导!
无论是GPT-4还是GPT-5,都在基准测试中实现重大飞跃,性能远超前代产品。
因此,今年的AI并非微创新堆叠,而是真正的能力跃迁。
那为何GPT-5发布后,许多人感到失望?
这是因为过去两年新模型发布频率加快,而非能力提升放缓。
接下来五个是最受欢迎的Gradient专栏文章。
6. ChatGPT耗电惊人?并非如此
GPT-4o每次推理的平均能耗究竟是多少?
答案是,比点亮一个灯泡五分钟的耗电量还低。
这一结论得到奥特曼证实,与谷歌报告的每条Gemini提示的能量成本相近。
也就是说,外界对AI能耗的担忧被夸大了。
当然,AI能耗仍在指数级增长,未来可能成为重大问题。
这篇文章讲清了DeepSeek v3如何用三项核心技巧,在更低算力下夺得当时最强开源模型之位。
三项技术是:多头潜在注意力(MLA)、混合专家(MoE)架构改进,以及多token预测机制。
文章发布三天后,DeepSeek推出R1,引发全球AI圈震动。其性能与OpenAI o1相当,但开发成本仅为几分之一。
整个AI圈因此学到:精妙架构创新 = 更低研发成本 + 更快落地速度。
作者分析了推理训练的增长模式与上限,结论是:推理固然重要,但增长不会无限爆炸。
OpenAI、Anthropic在2025年初表示,它们当前的RL扩展速度最多维持1–2年,很快将触及算力基础设施上限。
推理能力已成为模型训练中极为重要的扩展维度,并在数学、软件工程领域带来显著效果。
然而,这一方向的增长存在明显边界,意味着2024–2025年模型能力的爆发式提升可能很快放缓。
对研发规划而言,这是重要的现实提醒。
Epoch AI对比曼哈顿计划、阿波罗计划,估算美国国家级AI项目的潜在规模。
结论是:该项目足以支撑一次规模达GPT-4一万倍的训练任务。
也就是说,当AI被视作国家战略科技项目时,其规模可放大许多倍!
10. AI的最大价值不来自科研?
最后一篇,饶有趣味。
我们常听到一种叙事:AI一旦能自动科研,技术将指数爆炸,人类生产力将迎来史诗级跃迁。
但Epoch AI给出了更冷静的判断——
AI创造的大部分价值,或许并非来自加速研发(R&D),而是来自对经济体系中大量工作的广泛自动化。
因为从历史数据看,1988–2020年间,研发活动对整体生产率的贡献相当有限。
即便AI将“科研效率”拉满,真正撬动经济的可能并非实验室突破,而是日常工作方式的改变。
这里存在一个关键分歧!
要知道,奥特曼、Demis Hassabis、Dario Amodei等领军人物均认为“AI自动化研发是通向爆发式增长的关键”。
若此判断成立,AI的影响将迅猛剧烈,它会突然跨过“科研自动化的最后一道门槛”,在少数AI公司内部实现巨大飞跃。
但Epoch AI提出另一种可能性,也是更“社会学”的版本。
AI更可能通过缓慢而分散的过程改变世界。
并非一夜之间,而是几年甚至几十年,AI将逐步被不同行业和组织吸收,替代重复劳动。
若果真如此,AI革命不会是一声巨响,而是一场漫长的潮水。
参考资料:
https://x.com/EpochAIResearch/status/2003510001277747518
https://x.com/EpochAIResearch/status/2003559099867496872
https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up
https://x.com/EpochAIResearch/status/2003178174310678644
本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329873.html