当前位置：首页 > 科技资讯 > 正文

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后

主机测评网
科技资讯
2026-03-09
650

【导读】Epoch AI年度总结出炉！令人意外的是，AI并未放慢脚步，反而加速进化。

近期，Epoch AI连续发布了多项新研究成果。

他们对几款开源权重的中国大模型在FrontierMath上进行了测试。

结果显示，这些模型在1-3级难度上的最高得分，比全球顶尖AI落后约七个月。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第1张

而在难度更高的第四级，几乎所有开源中文大模型都交了白卷。

唯一拿到分数的模型是DeepSeek-V3.2 (Thinking)，它正确解答了一道题，获得1/48（约2%）的分数。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第2张

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第3张

当然，尽管中文开源模型表现不佳，但国外顶尖模型同样面临挑战。

GPT、Gemini等模型在传统数学测试（如GSM-8k、MATH）中表现优异，但在FrontierMath上正确率也不高。

但从表格数据看，它们的表现仍优于中文开源模型，原因尚不明确。

所有模型都表现不佳，是因为FrontierMath并非普通基准测试，而是由60多位数学界顶尖专家联合出题，甚至得到菲尔兹奖得主背书。

这是一套真正的数学大考卷，并非简单的公式代入或微积分练习，而是专家级的原创难题，涵盖数论、实分析、代数几何、范畴论等领域，甚至达到科研级别，需要数小时甚至数天才能解开。

这证明AI在真正的难题面前尚不是“做题机器”，更像是偶尔撞见答案的小学生。

AI进化，再次提速

此外，他们还发布了一份最新数据洞察，结论令人振奋——

AI能力的增长速度，比以往更快了！

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第4张

他们使用一个名为Epoch Capabilities Index（ECI）的综合指标，追踪前沿AI模型的能力发展趋势。

结果显示，自2024年4月起，AI能力增长速度显著提升——比之前快了近一倍！

这意味着，过去几年AI能力并非平稳上升，而是在某个节点突然加速冲刺。

背后原因有二：推理模型能力增强，强化学习获得更多重视。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第5张

许多人认为AI进展放缓，因为自GPT-4发布后未再出现巨大飞跃。

但数据显示，AI的进步从未停止，只是方向和节奏发生变化。它一直在某些核心技能（如推理能力）上加速，而非依赖“更大模型+更多参数”。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第6张

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第7张

年度十大洞察TOP榜

与此同时，Epoch AI刚刚发布了一篇硬核年终回顾。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第8张

整个2025年，他们共发布了36篇数据洞察和37篇通讯。

在这70余篇关于AI的短篇调查中，哪些最受读者青睐？

Epoch AI为我们带来了年终盘点。

以下十大调查，是读者最喜爱的。

前五个是最受欢迎的数据洞察。

1. AI推理成本急剧下降

更准确地说，LLM推理价格在不同任务中快速但不均衡地降低。

在2023年4月至2025年3月间，Epoch AI发现同等性能水平下，每token价格下降超过10倍。

这意味着，AI每次推理（生成回答）的成本降低了10倍以上。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第9张

成本下降意味着AI普及门槛降低：它不再是“大厂专属”，而是人人可用的工具！

2. AI“大脑”正进入你的电脑

短短一年间，前沿AI性能已在消费级硬件上实现。

目前能在消费级GPU上运行的顶级开源模型，在GPQA、MMLU、AA Intelligence和LMArena等多项指标上，与顶尖AI的差距不到一年，甚至更短。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第10张

既然最强开源模型能在普通消费级显卡上运行，那么不久的将来，你的笔记本或许就能跑AI大模型！

而且，任何最前沿的AI能力都可能在未来一年内被公众广泛获取。

3. OpenAI 2024年大部分算力用于实验

据媒体报道，2024年OpenAI的大部分计算资源并未投入推理或训练，而是用于实验以支持进一步开发。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第11张

没错，并非想象中那样主要用于训练或24/7提供服务，更多是在试错、探索和实验。

这说明当前AI研发仍高度依赖大量实验，而非仅跑几个基准测试。

同时，当前AI的成本主要来自实验，而非训练和部署。

4. 英伟达芯片算力每10个月翻一番！

自2020年起，英伟达芯片的已部署AI计算量每年增长超过一倍。

每款旗舰芯片发布后，三年内将占据现有计算量的绝大部分。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第12张

因此可以说，GPU仍是AI运算的核心动力，且增长速度极快。

为维持当前AI发展速度，计算资源还需成倍增加，英伟达等芯片厂商仍有巨大市场空间！

5. GPT-4与GPT-5均实现重大飞跃

尽管有人抱怨OpenAI更新太快看不出进步，但别被误导！

无论是GPT-4还是GPT-5，都在基准测试中实现重大飞跃，性能远超前代产品。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第13张

因此，今年的AI并非微创新堆叠，而是真正的能力跃迁。

那为何GPT-5发布后，许多人感到失望？

这是因为过去两年新模型发布频率加快，而非能力提升放缓。

Gradient最热TOP 5：洞察背后的思考

接下来五个是最受欢迎的Gradient专栏文章。

6. ChatGPT耗电惊人？并非如此

GPT-4o每次推理的平均能耗究竟是多少？

答案是，比点亮一个灯泡五分钟的耗电量还低。

这一结论得到奥特曼证实，与谷歌报告的每条Gemini提示的能量成本相近。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第14张

也就是说，外界对AI能耗的担忧被夸大了。

当然，AI能耗仍在指数级增长，未来可能成为重大问题。

7. DeepSeek如何改进Transformer架构？

这篇文章讲清了DeepSeek v3如何用三项核心技巧，在更低算力下夺得当时最强开源模型之位。

三项技术是：多头潜在注意力（MLA）、混合专家（MoE）架构改进，以及多token预测机制。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第15张

文章发布三天后，DeepSeek推出R1，引发全球AI圈震动。其性能与OpenAI o1相当，但开发成本仅为几分之一。

整个AI圈因此学到：精妙架构创新 = 更低研发成本 + 更快落地速度。

8. 推理模型能走多远？局限在哪里？

作者分析了推理训练的增长模式与上限，结论是：推理固然重要，但增长不会无限爆炸。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第16张

OpenAI、Anthropic在2025年初表示，它们当前的RL扩展速度最多维持1–2年，很快将触及算力基础设施上限。

推理能力已成为模型训练中极为重要的扩展维度，并在数学、软件工程领域带来显著效果。

然而，这一方向的增长存在明显边界，意味着2024–2025年模型能力的爆发式提升可能很快放缓。

对研发规划而言，这是重要的现实提醒。

9. “AI曼哈顿计划”规模多大？

Epoch AI对比曼哈顿计划、阿波罗计划，估算美国国家级AI项目的潜在规模。

结论是：该项目足以支撑一次规模达GPT-4一万倍的训练任务。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第17张

也就是说，当AI被视作国家战略科技项目时，其规模可放大许多倍！

10. AI的最大价值不来自科研？

最后一篇，饶有趣味。

我们常听到一种叙事：AI一旦能自动科研，技术将指数爆炸，人类生产力将迎来史诗级跃迁。

但Epoch AI给出了更冷静的判断——

AI创造的大部分价值，或许并非来自加速研发（R&D），而是来自对经济体系中大量工作的广泛自动化。

因为从历史数据看，1988–2020年间，研发活动对整体生产率的贡献相当有限。

即便AI将“科研效率”拉满，真正撬动经济的可能并非实验室突破，而是日常工作方式的改变。

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后 AI进展 FrontierMath 中文开源模型推理模型第18张

这里存在一个关键分歧！

要知道，奥特曼、Demis Hassabis、Dario Amodei等领军人物均认为“AI自动化研发是通向爆发式增长的关键”。

若此判断成立，AI的影响将迅猛剧烈，它会突然跨过“科研自动化的最后一道门槛”，在少数AI公司内部实现巨大飞跃。

但Epoch AI提出另一种可能性，也是更“社会学”的版本。

AI更可能通过缓慢而分散的过程改变世界。

并非一夜之间，而是几年甚至几十年，AI将逐步被不同行业和组织吸收，替代重复劳动。

若果真如此，AI革命不会是一声巨响，而是一场漫长的潮水。

参考资料：

https://x.com/EpochAIResearch/status/2003510001277747518

https://x.com/EpochAIResearch/status/2003559099867496872

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up

https://x.com/EpochAIResearch/status/2003178174310678644

性价比vps 服务器教程

本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260329873.html

Epoch AI年终盘点：AI能力加速进化，中文开源模型在顶级数学测试中表现滞后

AI进化，再次提速