当前位置：首页 > 科技资讯 > 正文

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋

主机测评网
科技资讯
2025-12-24
317

近期，一篇题为「DiT存在根本性错误」的讨论在X平台掀起波澜，博主通过引用学术论文，指出DiT（Diffusion Transformer）在架构设计上可能隐含缺陷，并附上相关数据图表佐证。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第1张

图1呈现了TREAD训练策略的效能，该策略能显著提升基于token的扩散模型骨干网络的训练效率。当应用于标准DiT骨干时，TREAD在无引导FID指标上实现了14/37倍的训练加速，并收敛至更优的图像生成质量。

图表横轴以A100 GPU小时为单位（对数尺度），纵轴为FID分数（数值越低代表质量越高）。博主强调，该图核心并非突显TREAD的速度优势，而是揭示DiT的FID过早趋于稳定，这暗示DiT可能存在「隐性架构缺陷」，导致其无法持续从数据中学习提升。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第2张

博主引用的论文于今年1月发表（3月更新v2），介绍了一种名为TREAD的创新方法。该工作通过「令牌路由」机制，在不调整模型架构的前提下，大幅提升了训练效率与生成图像质量，从而在速度与性能上明显超越DiT模型。

具体而言，TREAD在训练阶段采用「部分令牌集」与「完整令牌集」的动态切换，通过预定义路由保存信息并重引入深层网络，跳过部分计算以降低成本，此策略仅用于训练，推理时仍保持标准设置。这与MaskDiT等方法理念相近，但实现了更高效率。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第3张

论文标题：TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training

论文地址：https://arxiv.org/abs/2501.04765

代码：https://github.com/CompVis/tread

博主在后续阐述中逐步深化对DiT的批判，并解释TREAD如何暴露这些症结。他指出，论文实验表明，若将DiT模型中部分计算单元替换为「恒等函数」（即让数据直接通过，不做任何处理），模型的最终评估分数反而提升，这暗示DiT架构可能存在冗余或设计不当。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第4张

博主进一步列举DiT两个「可疑」设计点：

整体架构采用「后层归一化」（Post-LayerNorm）

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第5张

博主认为，DiT使用了一种已知数值稳定性较差的技術（后层归一化）来处理数值范围剧烈波动的扩散过程，这可能加剧训练不稳定性。

adaLN-zero条件注入机制

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第6张

博主指出，DiT虽整体基于Transformer架构，但在处理关键条件信息（如时间步或类别）时，并未充分利用Transformer的注意力机制，而是依赖一个简单的MLP（多层感知机）通过adaLN-zero进行调节。这种设计可能限制模型表达能力，相当于「厌恶注意力操作」，从而削弱DiT的潜力。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第7张

博主还关联早期LayerNorm研究，指出LayerNorm的偏置与增益参数可能更多影响梯度调节，而非直接提升模型性能。他认为adaLN-zero机制类似「为小模型注入过拟合偏置」，名义上进行梯度调节，实则可能掩盖架构短板。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第8张

论文标题：Understanding and Improving Layer Normalization

论文地址：https://arxiv.org/abs/1911.07013

面对此番质疑，DiT原作者、纽约大学计算机科学助理教授谢赛宁予以回应。2022年，谢赛宁团队发表DiT论文，首次将Transformer与扩散模型深度融合，开创了新一代生成模型架构。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第9张

论文标题：Scalable Diffusion Models with Transformers

论文链接：https://arxiv.org/pdf/2212.09748

DiT问世后，Transformer逐步替代原始扩散模型中的U-Net，成为图像与视频生成任务的核心骨干，其思想是以Transformer取代传统卷积网络，提升模型扩展性与表现力。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第10张

该方法已成为Sora及Stable Diffusion 3等前沿系统的基石，奠定了DiT的学术影响力。然而，DiT自诞生之初便伴随争议，曾因「创新性不足」被CVPR 2023拒稿。此次针对DiT「数学与形式错误」的指控，谢赛宁通过社交媒体给出了几点回复。

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第11张

从回应语调看，谢赛宁对此话题带有情绪：他坦言原帖或有「钓鱼赚点击」之嫌，但仍愿接招讨论。他强调，研究者的理想正是不断发现自身架构的不足，若架构永远无懈可击，反是更大问题。团队日常通过SiT、REPA、REPA-E等方法尝试突破DiT，但这需基于假设、实验与验证，而非「纸上谈兵式科研」，否则结论不仅错误，甚至缺乏讨论基础。

谢赛宁语气稍显激动，部分源于原帖博主表述具煽动性：

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第12张

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第13张

谢赛宁亦从技术层面反驳原帖部分观点，并承认DiT存在改进空间。他列出当前DiT的若干问题：

TREAD更接近随机深度（stochastic depth），其收敛性可能源于正则化效应，增强了表示能力（推理时仍为标准流程，所有模块处理全部token）。这是一项有趣工作，但与原帖解读截然不同。
Lightning DiT已成为经验证的稳健升级版（整合swiglu、rmsnorm、rope等技术，patch size=1），有条件时应优先采用。
无证据表明后归一化（post-norm）必然带来负面效果。
过去一年主要改进在于内部表示学习：如REPA及其变体，包括tokenizer层面修正（VA-VAE / REPA-E）、语义token拼接、解耦架构（DDT），以及通过分散损失、自表示对齐等正则化手段。
应优先采用随机插值/流匹配（SiT作为基线）。
时间嵌入可使用AdaLN-zero；但对复杂分布（如文本嵌入），宜用交叉注意力。
需正确实施——采用PixArt风格的共享AdaLN，否则可能浪费约30%参数。
真正「硬伤」在于DiT采用的sd-vae：该组件臃肿低效（处理256×256图像需445.87 GFlops），且非端到端设计。VA-VAE与REPA-E仅部分修复，更多改进尚在进行。

评论区网友对技术细节兴致浓厚，谢赛宁亦逐一答疑：

DiT架构争议：TREAD训练策略揭示潜在缺陷与学术交锋 DiT TREAD 扩散模型架构优化第14张