当前位置:首页 > 科技资讯 > 正文

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显

当多数大语言模型仍沿袭自回归架构之时,部分研究者已将目光投向扩散模型。

在量子位MEET2026智能未来大会上,浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家赵俊博指出:

扩散架构在推理过程中可直接编辑和控制token,无需像自回归模型那样整体重新生成。

这意味着,相较于自回归模型,扩散模型理论上能够实现更快的生成速度和更低的计算开销。

基于这一判断,他和团队将重心放在扩散架构上,致力于探索扩散语言模型独特的Scaling Law。

作为该探索的关键成果,他们近期发布并开源了LLaDA 2.0,率先将扩散语言模型推进至千亿参数规模

赵俊博坦言,这一领域在训练与推理层面仍处早期阶段,但发展迅猛,已吸引谷歌、字节跳动等巨头及一批初创公司积极布局。

编者注:MEET2026智能未来大会结束后,赵俊博团队随即发布了全新技术报告,详述千亿扩散语言模型背后的关键技术选择。报告标题:LLaDA2.0: Scaling Up Diffusion Language Models to 100B

报告链接(github):https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第1张

为完整体现赵俊博的思考,我们在不改变原意的基础上对演讲内容进行了编辑整理,希望能带来更多启发。

MEET2026智能未来大会由量子位主办,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众超过350万,获得主流媒体广泛关注与报道。

核心观点梳理

  • 所有生成模型本质上都在拟合数据分布。自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这条路径并非唯一
  • 开源模型LLaDA采用扩散语言模型架构,暂不考虑MoE的情况下,在相同计算量和性能目标下,LLaDA所需的参数规模可小于自回归模型
  • 扩散架构在推理过程中可直接修改和控制token,无需像自回归模型那样重新生成整段内容。
  • 在计算资源受限时,LLaDA采用“完形填空”式预测,相比自回归模型更为“数据饥渴”,对数据需求更大、吸收数据更快
  • LLaDA与自回归模型的Scaling Law存在差异,目前已验证可扩展至千亿规模,但继续向上将面临新挑战。
  • ……

以下为赵俊博演讲全文:

押注扩散语言模型的Scaling Law

大家好,今天我准备聊点不一样的,来一场技术脱口秀。

刚才几位嘉宾反复提到,当前主流大语言模型几乎都基于自回归架构。但我接下来要介绍的,是我们最近开源的全新系列模型——架构完全不同

要理解差异,先厘清几个基本概念。

大家应该很熟悉Midjourney、Sora、Emu Video等图像/视频领域的流行模型,实际上它们内部都有一个非常明确的机制叫扩散

什么是扩散?简单说就是加噪再降噪,从噪声中恢复图像。

所有Auto-Regressive Model(AR,自回归模型)基本遵循同一机制——给定前N个词,预测第N+1个词,然后基于前N+1个词再预测第N+2个词,依此类推。

扩散语言模型则另辟蹊径,有些观众可能知道它叫Masked Diffusion Language Models,我们看看它的解码过程,简单说它的机制不是“接龙”,而是“做完形填空”

如图所示,给定一句话后我们会Mask(遮盖)掉一部分词,再让它恢复,这很像我们小时候做的完形填空。

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第2张

而我们现在要做的,就是Diffusion Language Model(dLLM,扩散语言模型)的Scaling Law。

为什么做这件事?其实这是我们押注的方向。

本质上,所有大模型只要是生成模型,都是在拟合P(X),即数据本身的分布。

自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这条路并非唯一。

下图由新加坡国立大学SEA AI研究员Jinjie Ni提供,其中阐明了几点重要观点。

第一,在计算受限的情况下,基于“完形填空”预测的扩散语言模型,比一般自回归模型需要的数据量更大,即所谓“data-hungry”,数据吸收更快。

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第3张

第二,同样是dense结构(暂不考虑MoE),在参数和计算量相同的情况下,dLLM可以比AR做得更小。

所谓的“Super Data Learners”,如果了解图像或视频的扩散模型就会知道,它们有个特点——可以持续训练

比如我们现在所有的自回归模型,基本上训练到多个epoch后效果就不再提升,数据也就这样了。

而在同样数据集、同样架构下,红色那条代表Diffusion的曲线可以一直训练——跟图像领域观测到的现象一致,确实可以持续训练。

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第4张

第三是Diffusion独有的优势。都知道CoT(思维链)和RL(强化学习),或者说见识过DeepSeek上的深度思考过程。我之前打了个比方:AR像一个不能带草稿纸的考生——

进了考场不允许写提纲,下棋一样落子无悔,解题时落笔无悔。写下一个token就钉死,再写下一个,没有机会回头修改。中间写错了通过CoT机制,就好像“突然有个token说这里好像算错了,重新开始”。

实际上这就解释了为什么会有test-time scaling——AR在推理侧的token效率其实不高,一些简单问题也要推理很久,生成很多token。

如图所示,我们正在进行的研究叫Editable and Controllable Generation(等待跑通中),是指在Diffusion框架下,随时“做完形填空”、随时改;不像DeepSeek-R1或OpenAI-o1必须整段token推倒重来,我们可以直接在推理过程中修改token。

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第5张

这里面有大量工程细节,时间关系只能简单展示一些。

发布并开源千亿规模dLLM

首先是注意力掩码(Attention Mask)的适配问题

我们的模型中既包含细粒度的Block,也包含由Block组成的更大区块——区块之间采用自回归的注意力机制(确保序列总体连贯性),区块内部并行解码(提升计算效率)。

因此,模型中同时存在两种注意力模式。有些地方用全局Attention(捕捉长程依赖),有些地方用Causal Attention(维持自回归约束)。

这里头还包括对随机长度序列的处理、集成港大孔令鹏老师提出的几何加权方法,以及实现文本与文档的长序列切分注意力等关键技术。

我们开源了一套训练框架和推理框架,让社区能把我们在Hugging Face上发布的模型直接跑起来。其中涉及5D并行集成、分区块Diffusion下的Flex-Attention与Attention Mask适配,细节不再展开。

这是我们开源的第一个面向扩散语言模型的训练框架,已支持SFT(监督微调)与DPO(直接偏好优化)。

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第6张

这里我想把整个脉络稍微梳理一下:

中国人民大学文继荣和李崇轩老师团队,率先开源了扩散语言模型LLaDA的第一个版本LLaDA 1.0。

LLaDA 1.0的研究过程相当艰难,当时训练和推理框架都很原始,踩坑无数,但其8B版本在Hugging Face上零推广就获得二十几万下载。

这是第一个大规模训练到80亿参数的扩散语言模型,效果可对标LLaMA-3-8B。

后来蚂蚁技术研究院联合人大、浙大、西湖大学把整条线接过来,下重注要将这个领域的“非共识”变成“共识”。

第一件事就是解决架构问题。LLaDA是一个dense模型,而dense的痛点大家都提过,比如第一个就是怎么在Diffusion的框架里集成MoE。

今年9月,我们发布了LLaDA-MoE,总参数7B(激活参数1B),是全球第一个原生训练出来的MoE架构扩散语言模型。

最近一段时间,相关研究几乎已经在全球铺开——谷歌有Gemini Diffusion、一家美国创业公司在做Mercury系列,包括字节也在做。

其最大特点就是一个字:

因为它就是“做完形填空”。比如做一个解码,我先把最后一个token解出来,然后再去填中间,这些确实是实际解码过程中能看到的。

上上周,我们发布了LLaDA 2.0,率先把扩散语言模型做到千亿体量。踩坑史太长,技术报告已上线,这里就不再展开。

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第7张

这里有几个视频。

第一个视频表明,在全局注意力机制的支持下,扩散模型在效果上相比自回归模型具备一定优势。

赵俊博谈扩散语言模型LLaDA 2.0:千亿参数突破,推理速度与成本优势凸显 扩散语言模型 LLaDA 2.0 自回归模型 Scaling Law 第8张

转到Coding,现在比较神奇的一点是——扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势

得益于并行解码,一次能同时吐出几个token,现场看起来就像你在Cursor里按Tab自动补全。这些行为全是模型自己学出来的,我们也没完全搞懂为啥。

以及再看文学创作,这个东西比较有意思。看一下这个解码过程,先把开头和结尾的框架定下来,中间部分先写个大概,然后再根据上下文反复修改、润色中间的内容。

这种“非共识”的解码轨迹,在Gemini、OpenAI等任何原生App里都看不到。

接下来的一两个月,我们会联合ZenMux(一站式模型接入平台)放出部分API,体量虽还比不过主流大模型,但社区已在慢慢长大。

dLLM的训练推理仍处于早期发展阶段

最后用一点时间聊下推理。

10月份左右,我们发布了一个带有试验性质的推理引擎dInfer

通过新的模型架构与范式,若能将关键场景的TPS推上千量级,实现五倍乃至更高的速度提升,其体验将是革命性的。

回头看,Data/Parameter Scaling Law已不新鲜,去年9月OpenAI又带出testing-time Scaling Law。

接下来会不会出现Diffusion Scaling Law?

今天没人能给出答案。唯一确定的是,dLLM与AR的Scaling Law有很大区别,继续扩展下去也会面临新的挑战。

但不管怎样,我们会在这条路上继续走下去。在我看来,AR发展了三年(从ChatGPT出来之后发展了三年),dLLM的训推生态才刚起步,希望社区一起下场共建,谢谢。