当前位置：首页 > 科技资讯 > 正文

大模型密度法则：能力密度指数增长引领智能新纪元

主机测评网
科技资讯
2026-01-26
645

自2020年起，OpenAI提出的Scaling Law推动了大模型的迅猛发展——模型参数和训练数据规模的扩大直接增强了智能能力。然而，进入2025年，这种依赖规模扩张的训练方式遇到了可持续性挑战。OpenAI前首席科学家Ilya Sutskever公开指出，随着互联网公开语料几乎耗尽，传统的大模型预训练模式将难以为继（“我们所知的预训练将终结”）。因此，众多研究者开始探索大模型发展的新路径。

清华大学的研究成果“密度法则”（Densing Law）提供了全新视角。该成果近日正式发表于Nature子刊《自然·机器智能》，为大模型发展规律增添了新维度。密度法则揭示，大语言模型的最大能力密度随时间呈指数级增长，从2023年2月到2025年4月，约每3.5个月翻一番，这意味着每隔3.5个月，就能用参数减半的模型达到同等最优性能。

大模型密度法则：能力密度指数增长引领智能新纪元密度法则大语言模型能力密度端侧智能第1张

论文链接：https://www.nature.com/articles/s42256-025-01137-0

灵感源于“摩尔定律”的“密度法则”

回顾计算机发展历程，在摩尔定律的指引下，半导体行业持续改进制造工艺、提升芯片电路密度，实现了计算设备从重达27吨的ENIAC到轻巧智能手机的跨越，最终促进了算力普及和信息革命。如今，全球拥有约13亿台个人电脑、70亿部智能手机、180亿台物联网设备和2000亿颗运行中的CPU。摩尔定律的核心在于提升电路密度——单位面积容纳更多计算单元，而非单纯扩大芯片尺寸。

受此启发，研究团队提出：大模型发展同样可以从“能力密度”的角度来观察和理解。正如芯片行业通过增加电路密度实现设备小型化和普惠化，大模型正通过提高能力密度迈向高效发展。

大模型密度法则：能力密度随时间指数增长

研究团队基于一个核心假设：采用相同制造工艺、充分训练的不同尺寸模型，其能力密度相同。在此基础上，团队选取基准模型并设定其密度为1，作为衡量其他模型能力密度的基线。目标模型的能力密度定义为：达到相同性能时，基准模型参数量与目标模型参数量的比值。

大模型密度法则：能力密度指数增长引领智能新纪元密度法则大语言模型能力密度端侧智能第2张

通过对51个近年发布的开源大模型进行系统分析，研究团队发现了一个关键规律：大模型的最大能力密度随时间呈指数级增长，自2023年以来平均每3.5个月翻一番。这表明，随着数据、算力和算法的协同进步，能够以更少的参数达成同等的智能水平。

大模型密度法则：能力密度指数增长引领智能新纪元密度法则大语言模型能力密度端侧智能第3张

根据密度法则，研究团队推导出若干重要推论。

推论 1：同能力模型的推理开销随时间指数级下降

密度法则指出，同等能力的大模型参数每3.5个月减半。同时，在推理系统优化方面，摩尔定律驱动芯片算力持续增强，而模型量化、投机采样、显存优化等算法技术不断突破，使得相同推理成本下可运行的模型规模不断扩大。实证数据显示，GPT-3.5级模型API价格在20个月内下降266.7倍，约每2.5个月下降一倍。

大模型密度法则：能力密度指数增长引领智能新纪元密度法则大语言模型能力密度端侧智能第4张

推论 2：大模型能力密度正在加速增强

以MMLU为评测基准的统计显示，ChatGPT发布前，能力密度每4.8个月翻倍；发布后，每3.2个月翻倍，密度增长速度提升了50%。这表明，随着大模型技术成熟和开源生态繁荣，能力密度提升正在加速。

大模型密度法则：能力密度指数增长引领智能新纪元密度法则大语言模型能力密度端侧智能第5张

推论 3：模型压缩算法并不总能增强模型能力密度

研究团队对比了多个模型与其压缩版本的能力密度，发现除Gemma-2-9B外，如Llama-3.2-3B/1B、Llama-3.1-minitron-4B等其他压缩模型的密度均低于原模型。量化技术同样会降低模型性能和能力密度。这一发现揭示了当前模型压缩技术的局限：压缩后较小模型的训练往往不充分，难以达到最优密度。

大模型密度法则：能力密度指数增长引领智能新纪元密度法则大语言模型能力密度端侧智能第6张

推论 4：模型小型化揭示端侧智能巨大潜力

芯片电路密度（摩尔定律）和模型能力密度（密度法则）两条曲线的交汇，意味着端侧设备将能够运行更高性能的大模型，边缘计算和终端智能将迎来爆发式增长，算力普惠将从云端走向终端。

大模型密度法则：能力密度指数增长引领智能新纪元密度法则大语言模型能力密度端侧智能第7张

基于密度法则的理论指导，清华大学与面壁智能团队持续推进高密度模型研发，推出了面壁小钢炮MiniCPM、MiniCPM-V/o、VoxCPM等系列端侧高密度模型，以其高效低成本的特点获得全球认可，被评为2024年Hugging Face最多下载、最受欢迎的中国大模型。截至2025年10月，模型下载量已近1500万次，GitHub星标数接近3万。