当前位置:首页 > 科技资讯 > 正文

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革

在主流大语言模型仍广泛采用自回归架构的当下,已有研究团队将目光聚焦于扩散架构。

在本次量子位MEET2026智能未来大会上,浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家赵俊博指出:

扩散架构在推理阶段允许直接调整和控制token,无需像自回归模型那样重新生成完整内容。

这意味着,相较于自回归模型,扩散模型在理论上具备更快的生成速度和更低的计算成本潜力。

基于这一优势,赵俊博及其团队重点投入扩散架构研究,致力于探索扩散语言模型独有的Scaling Law规律。

作为此探索的关键里程碑,他们近期发布并开源了LLaDA 2.0,率先将扩散语言模型推向千亿参数规模

赵俊博坦言,该领域在训练与推理层面仍处于早期阶段,但发展迅速,已吸引谷歌、字节等科技巨头及一批初创公司积极布局。

编者注:MEET2026智能未来大会结束后,赵俊博和团队发布了全新技术报告,揭示了千亿体量扩散语言模型背后的关键技术选择。报告标题:LLaDA2.0: Scaling Up Diffusion Language Models to 100B

报告链接(github):https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第1张

为完整呈现赵俊博的见解,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,以提供更多启发。

MEET2026智能未来大会由量子位主办,近30位产业代表参与讨论。线下参会观众近1500人,线上直播观众超350万,获得了主流媒体的广泛关注与报道。

核心观点梳理

  • 所有生成模型本质上都是在拟合数据分布。自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并非唯一路径
  • 开源模型LLaDA采用扩散语言模型架构,暂不考虑MoE的情况下,在相同计算量和性能目标下,LLaDA所需的参数规模可以比自回归模型更小
  • 扩散架构在推理过程中可以直接修改和控制token,而不需要像自回归模型那样重新生成整段内容。
  • 在计算受限情况下,LLaDA采用“完形填空”式预测,相比自回归模型更为“data-hungry”,对数据需求更大、吸收数据更快
  • LLaDA与自回归模型的Scaling Law存在差异,已验证LLaDA可以扩展到千亿规模,但继续往上会面临新的挑战。
  • ……

以下为赵俊博演讲全文:

押注扩散语言模型的Scaling Law

大家好,今天我分享一些不同视角的内容,来一场技术上的轻松探讨。

此前几位嘉宾已多次提到,当前主流的大语言模型大多基于自回归架构构建。但我接下来介绍的是我们最新开源的全新系列模型——架构截然不同

要理解其中差异,我们先厘清几个基本概念。

大家可能熟悉Midjourney、Sora、Emu Video等图像/视频领域的热门模型,它们都明确采用了扩散机制。

何谓扩散?简而言之就是加噪后再去噪,从噪声中恢复图像。

所有自回归模型基本遵循同一机制——给定前N个词,模型预测并生成第N+1个词,然后基于前N+1个词,再预测第N+2个词,依次递进。

而扩散语言模型另辟蹊径,有些观众可能了解这东西叫Masked Diffusion Language Models,我们观察它的解码过程,简单来说其机制不是“做接龙”,而是“做完形填空”

如图所示,给定一句话后我们会遮盖掉部分词,再让它恢复,这很像我们小时候做的完形填空练习。

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第2张

而我们当前聚焦的,正是扩散语言模型的Scaling Law探索。

为何专注于此?这其实是我们的一项战略赌注。

从本质上看,所有大模型只要是生成模型,都是对P(X),即数据分布本身的拟合。

自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并非唯一路径。

下图由新加坡国立大学SEA AI研究员Jinjie Ni提供,其中点明了几个关键观点。

第一,在计算受限的情况下,基于“完形填空”方式预测的扩散语言模型,比一般自回归模型需要的数据量更大,即所谓的“data-hungry”,能更快速吸收数据。

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第3张

第二,同样是密集结构(暂不考虑MoE),在参数和计算量相同的情况下,扩散语言模型可以做得比自回归模型更紧凑。

所谓的“超级数据学习者”,如果了解图像或视频的扩散模型就会知道,它们有个特点——可以持续训练

比如当前所有自回归模型,基本训练到多个epoch后效果就趋于稳定,数据利用率有限。

而在同样数据集和架构下,红色那条代表扩散的曲线可以持续提升——这与图像领域观测到的现象一致,确实能进行不间断训练。

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第4张

第三是扩散独有的优势。众所周知CoT(思维链)和RL(强化学习),或见识过DeepSeek上的深度思考过程。我之前做了个比喻,自回归模型像不能带草稿纸的考生:

进入考场后不允许写提纲,如同下棋落子无悔,在解题时落笔即成定局,没有机会回头修改。中间若出错,CoT机制就像“突然有一个token表示某步计算有误,需重新开始”。

这实际上解释了为何会有测试时扩展——自回归模型在推理侧的token效率并不高,一些简单问题也需推理良久,生成大量token。

如图所示,我们正在进行的研究叫可编辑与可控生成(等待跑通中),指在扩散框架下,随时进行“完形填空”、随时修改;不像DeepSeek-R1或OpenAI-o1必须整段token推倒重来,我们可直接在推理过程中调整token。

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第5张

这其中涉及大量工程细节,时间有限仅简要提及。

发布并开源千亿规模扩散语言模型

首先是注意力掩码适配问题

我们的模型中既包含细粒度块,也包含由块组成的更大区块——区块之间采用自回归注意力机制(确保序列总体连贯性),区块内部并行解码(以提升计算效率)。

因此,模型中同时存在两种注意力模式。部分区域使用全局注意力(以捕捉长程依赖),部分区域使用因果注意力(以维持自回归约束)。

这还包括对随机长度序列的处理、集成港大孔令鹏老师提出的几何加权方法,以及实现文本与文档的长序列切分注意力等关键技术。

我们开源了一套训练框架和推理框架,让社区能直接运行我们在Hugging Face上发布的模型。其中涉及5D并行集成、分区块扩散下的灵活注意力与注意力掩码适配,细节不再赘述。

这是我们开源的第一个面向扩散语言模型的训练框架,已支持SFT(监督微调)与DPO(直接偏好优化)。

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第6张

这里简要介绍整个发展脉络:

中国人民大学文继荣和李崇轩老师团队,率先开源了扩散语言模型LLaDA的第一个版本LLaDA 1.0。

LLaDA 1.0的研究过程充满挑战,当时训练和推理框架较为原始,踩坑无数,但其8B版本在Hugging Face上零推广即获得二十多万下载。

这是第一个大规模训练到80亿参数的扩散语言模型,效果可对标LLaMA-3-8B。

后来蚂蚁技术研究院联合人大、浙大、西湖大学接手这一方向,决心将这一领域的“非共识”转化为“共识”。

首项任务是解决架构问题。LLaDA是一个密集模型,而密集模型的痛点众所周知,比如如何在扩散框架中集成MoE。

今年9月,我们发布了LLaDA-MoE,总参数7B(激活参数1B),是全球第一个原生训练出的MoE架构扩散语言模型。

近期,相关研究已在全球铺开——谷歌有Gemini Diffusion、有美国创业公司推出Mercury系列,字节也在布局。

其最大特点就是一个字:

因为它基于“完形填空”机制。例如进行解码时,先解出最后一个token,再填充中间部分,这在实际解码过程中确实可见。

上上周,我们发布了LLaDA 2.0,率先将扩散语言模型做到千亿体量。踩坑历程漫长,技术报告已上线,此处不再展开。

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第7张

这里有几个视频演示。

第一个视频显示,在全局注意力机制支持下,扩散模型在效果上相比自回归模型具备一定优势。

扩散语言模型新突破:LLaDA 2.0引领千亿体量架构变革 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第8张

转向编码任务,当前一个神奇之处是——扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型展现出明显优势

得益于并行解码,能同时输出多个token,现场体验类似在Cursor中按Tab自动补全。这些行为全是模型自主学习的结果,我们尚未完全理解原因。

再看文学创作,这颇为有趣。观察解码过程,先确定开头和结尾框架,中间部分初步撰写,再根据上下文反复修改、润色中间内容。

这种“非共识”解码轨迹,在Gemini、OpenAI等原生应用中均未出现。

接下来一两个月,我们将联合ZenMux(一站式模型接入平台)开放部分API,规模虽不及主流大模型,但社区正在逐步壮大。

扩散语言模型的训练推理仍处于早期发展阶段

最后简要探讨推理环节。

10月左右,我们发布了一个试验性推理引擎dInfer

通过新模型架构与范式,若能将关键场景的TPS推上千量级,实现五倍乃至更高速度提升,其体验将是革命性的。

回顾过往,数据/参数Scaling Law已不新鲜,去年9月OpenAI又提出测试时Scaling Law。

未来是否会出现扩散Scaling Law?

目前无人能给出答案。唯一确定的是,扩散语言模型与自回归的Scaling Law存在显著差异,继续扩展将面临新挑战。

但无论如何,我们将在这条道路上持续探索。在我看来,自回归模型发展三年(从ChatGPT问世算起),扩散语言模型的训练推理生态才刚起步,希望社区共同参与共建,谢谢。