当前位置:首页 > 科技资讯 > 正文

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋

近期,一篇题为「DiT存在根本性错误」的讨论在X平台掀起波澜,博主通过引用学术论文,指出DiT(Diffusion Transformer)在架构设计上可能隐含缺陷,并附上相关数据图表佐证。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第1张

图1呈现了TREAD训练策略的效能,该策略能显著提升基于token的扩散模型骨干网络的训练效率。当应用于标准DiT骨干时,TREAD在无引导FID指标上实现了14/37倍的训练加速,并收敛至更优的图像生成质量。

图表横轴以A100 GPU小时为单位(对数尺度),纵轴为FID分数(数值越低代表质量越高)。博主强调,该图核心并非突显TREAD的速度优势,而是揭示DiT的FID过早趋于稳定,这暗示DiT可能存在「隐性架构缺陷」,导致其无法持续从数据中学习提升。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第2张

博主引用的论文于今年1月发表(3月更新v2),介绍了一种名为TREAD的创新方法。该工作通过「令牌路由」机制,在不调整模型架构的前提下,大幅提升了训练效率与生成图像质量,从而在速度与性能上明显超越DiT模型。

具体而言,TREAD在训练阶段采用「部分令牌集」与「完整令牌集」的动态切换,通过预定义路由保存信息并重引入深层网络,跳过部分计算以降低成本,此策略仅用于训练,推理时仍保持标准设置。这与MaskDiT等方法理念相近,但实现了更高效率。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第3张

论文标题:TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training

论文地址:https://arxiv.org/abs/2501.04765

代码:https://github.com/CompVis/tread

博主在后续阐述中逐步深化对DiT的批判,并解释TREAD如何暴露这些症结。他指出,论文实验表明,若将DiT模型中部分计算单元替换为「恒等函数」(即让数据直接通过,不做任何处理),模型的最终评估分数反而提升,这暗示DiT架构可能存在冗余或设计不当。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第4张

博主进一步列举DiT两个「可疑」设计点:

  • 整体架构采用「后层归一化」(Post-LayerNorm)

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第5张

博主认为,DiT使用了一种已知数值稳定性较差的技術(后层归一化)来处理数值范围剧烈波动的扩散过程,这可能加剧训练不稳定性。

  • adaLN-zero条件注入机制

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第6张

博主指出,DiT虽整体基于Transformer架构,但在处理关键条件信息(如时间步或类别)时,并未充分利用Transformer的注意力机制,而是依赖一个简单的MLP(多层感知机)通过adaLN-zero进行调节。这种设计可能限制模型表达能力,相当于「厌恶注意力操作」,从而削弱DiT的潜力。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第7张

博主还关联早期LayerNorm研究,指出LayerNorm的偏置与增益参数可能更多影响梯度调节,而非直接提升模型性能。他认为adaLN-zero机制类似「为小模型注入过拟合偏置」,名义上进行梯度调节,实则可能掩盖架构短板。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第8张

论文标题:Understanding and Improving Layer Normalization

论文地址:https://arxiv.org/abs/1911.07013

面对此番质疑,DiT原作者、纽约大学计算机科学助理教授谢赛宁予以回应。2022年,谢赛宁团队发表DiT论文,首次将Transformer与扩散模型深度融合,开创了新一代生成模型架构。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第9张

论文标题:Scalable Diffusion Models with Transformers

论文链接:https://arxiv.org/pdf/2212.09748

DiT问世后,Transformer逐步替代原始扩散模型中的U-Net,成为图像与视频生成任务的核心骨干,其思想是以Transformer取代传统卷积网络,提升模型扩展性与表现力。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第10张

该方法已成为Sora及Stable Diffusion 3等前沿系统的基石,奠定了DiT的学术影响力。然而,DiT自诞生之初便伴随争议,曾因「创新性不足」被CVPR 2023拒稿。此次针对DiT「数学与形式错误」的指控,谢赛宁通过社交媒体给出了几点回复。

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第11张

从回应语调看,谢赛宁对此话题带有情绪:他坦言原帖或有「钓鱼赚点击」之嫌,但仍愿接招讨论。他强调,研究者的理想正是不断发现自身架构的不足,若架构永远无懈可击,反是更大问题。团队日常通过SiT、REPA、REPA-E等方法尝试突破DiT,但这需基于假设、实验与验证,而非「纸上谈兵式科研」,否则结论不仅错误,甚至缺乏讨论基础。

谢赛宁语气稍显激动,部分源于原帖博主表述具煽动性:

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第12张

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第13张

谢赛宁亦从技术层面反驳原帖部分观点,并承认DiT存在改进空间。他列出当前DiT的若干问题:

  • TREAD更接近随机深度(stochastic depth),其收敛性可能源于正则化效应,增强了表示能力(推理时仍为标准流程,所有模块处理全部token)。这是一项有趣工作,但与原帖解读截然不同。
  • Lightning DiT已成为经验证的稳健升级版(整合swiglu、rmsnorm、rope等技术,patch size=1),有条件时应优先采用。
  • 无证据表明后归一化(post-norm)必然带来负面效果。
  • 过去一年主要改进在于内部表示学习:如REPA及其变体,包括tokenizer层面修正(VA-VAE / REPA-E)、语义token拼接、解耦架构(DDT),以及通过分散损失、自表示对齐等正则化手段。
  • 应优先采用随机插值/流匹配(SiT作为基线)。
  • 时间嵌入可使用AdaLN-zero;但对复杂分布(如文本嵌入),宜用交叉注意力。
  • 需正确实施——采用PixArt风格的共享AdaLN,否则可能浪费约30%参数。
  • 真正「硬伤」在于DiT采用的sd-vae:该组件臃肿低效(处理256×256图像需445.87 GFlops),且非端到端设计。VA-VAE与REPA-E仅部分修复,更多改进尚在进行。

评论区网友对技术细节兴致浓厚,谢赛宁亦逐一答疑:

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第14张

DiT架构争议:TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型 架构优化 第15张

算法演进始终伴随对现有范式的质疑与挑战,所谓「不破不立」,但DiT至今仍在舞台中央,持续推动生成模型发展。