当前位置:首页 > 科技资讯 > 正文

大模型密度法则:能力密度指数增长引领智能新纪元

自2020年起,OpenAI提出的Scaling Law推动了大模型的迅猛发展——模型参数和训练数据规模的扩大直接增强了智能能力。然而,进入2025年,这种依赖规模扩张的训练方式遇到了可持续性挑战。OpenAI前首席科学家Ilya Sutskever公开指出,随着互联网公开语料几乎耗尽,传统的大模型预训练模式将难以为继(“我们所知的预训练将终结”)。因此,众多研究者开始探索大模型发展的新路径。

清华大学的研究成果“密度法则”(Densing Law)提供了全新视角。该成果近日正式发表于Nature子刊《自然·机器智能》,为大模型发展规律增添了新维度。密度法则揭示,大语言模型的最大能力密度随时间呈指数级增长,从2023年2月到2025年4月,约每3.5个月翻一番,这意味着每隔3.5个月,就能用参数减半的模型达到同等最优性能

大模型密度法则:能力密度指数增长引领智能新纪元 密度法则 大语言模型 能力密度 端侧智能 第1张

论文链接:https://www.nature.com/articles/s42256-025-01137-0

灵感源于“摩尔定律”的“密度法则”

回顾计算机发展历程,在摩尔定律的指引下,半导体行业持续改进制造工艺、提升芯片电路密度,实现了计算设备从重达27吨的ENIAC到轻巧智能手机的跨越,最终促进了算力普及和信息革命。如今,全球拥有约13亿台个人电脑、70亿部智能手机、180亿台物联网设备和2000亿颗运行中的CPU。摩尔定律的核心在于提升电路密度——单位面积容纳更多计算单元,而非单纯扩大芯片尺寸。

受此启发,研究团队提出:大模型发展同样可以从“能力密度”的角度来观察和理解。正如芯片行业通过增加电路密度实现设备小型化和普惠化,大模型正通过提高能力密度迈向高效发展。

大模型密度法则:能力密度随时间指数增长

研究团队基于一个核心假设:采用相同制造工艺、充分训练的不同尺寸模型,其能力密度相同。在此基础上,团队选取基准模型并设定其密度为1,作为衡量其他模型能力密度的基线。目标模型的能力密度定义为:达到相同性能时,基准模型参数量与目标模型参数量的比值。

大模型密度法则:能力密度指数增长引领智能新纪元 密度法则 大语言模型 能力密度 端侧智能 第2张

通过对51个近年发布的开源大模型进行系统分析,研究团队发现了一个关键规律:大模型的最大能力密度随时间呈指数级增长,自2023年以来平均每3.5个月翻一番。这表明,随着数据、算力和算法的协同进步,能够以更少的参数达成同等的智能水平。

大模型密度法则:能力密度指数增长引领智能新纪元 密度法则 大语言模型 能力密度 端侧智能 第3张

根据密度法则,研究团队推导出若干重要推论。

推论 1:同能力模型的推理开销随时间指数级下降 

密度法则指出,同等能力的大模型参数每3.5个月减半。同时,在推理系统优化方面,摩尔定律驱动芯片算力持续增强,而模型量化、投机采样、显存优化等算法技术不断突破,使得相同推理成本下可运行的模型规模不断扩大。实证数据显示,GPT-3.5级模型API价格在20个月内下降266.7倍,约每2.5个月下降一倍。

大模型密度法则:能力密度指数增长引领智能新纪元 密度法则 大语言模型 能力密度 端侧智能 第4张

推论 2:大模型能力密度正在加速增强 

以MMLU为评测基准的统计显示,ChatGPT发布前,能力密度每4.8个月翻倍;发布后,每3.2个月翻倍,密度增长速度提升了50%。这表明,随着大模型技术成熟和开源生态繁荣,能力密度提升正在加速。

大模型密度法则:能力密度指数增长引领智能新纪元 密度法则 大语言模型 能力密度 端侧智能 第5张

推论 3:模型压缩算法并不总能增强模型能力密度 

研究团队对比了多个模型与其压缩版本的能力密度,发现除Gemma-2-9B外,如Llama-3.2-3B/1B、Llama-3.1-minitron-4B等其他压缩模型的密度均低于原模型。量化技术同样会降低模型性能和能力密度。这一发现揭示了当前模型压缩技术的局限:压缩后较小模型的训练往往不充分,难以达到最优密度。

大模型密度法则:能力密度指数增长引领智能新纪元 密度法则 大语言模型 能力密度 端侧智能 第6张

推论 4:模型小型化揭示端侧智能巨大潜力 

芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线的交汇,意味着端侧设备将能够运行更高性能的大模型,边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端。

大模型密度法则:能力密度指数增长引领智能新纪元 密度法则 大语言模型 能力密度 端侧智能 第7张

基于密度法则的理论指导,清华大学与面壁智能团队持续推进高密度模型研发,推出了面壁小钢炮MiniCPM、MiniCPM-V/o、VoxCPM等系列端侧高密度模型,以其高效低成本的特点获得全球认可,被评为2024年Hugging Face最多下载、最受欢迎的中国大模型。截至2025年10月,模型下载量已近1500万次,GitHub星标数接近3万。