近期,一篇题为「DiT存在根本性错误」的讨论在X平台掀起波澜,博主通过引用学术论文,指出DiT(Diffusion Transformer)在架构设计上可能隐含缺陷,并附上相关数据图表佐证。
图1呈现了TREAD训练策略的效能,该策略能显著提升基于token的扩散模型骨干网络的训练效率。当应用于标准DiT骨干时,TREAD在无引导FID指标上实现了14/37倍的训练加速,并收敛至更优的图像生成质量。
图表横轴以A100 GPU小时为单位(对数尺度),纵轴为FID分数(数值越低代表质量越高)。博主强调,该图核心并非突显TREAD的速度优势,而是揭示DiT的FID过早趋于稳定,这暗示DiT可能存在「隐性架构缺陷」,导致其无法持续从数据中学习提升。
博主引用的论文于今年1月发表(3月更新v2),介绍了一种名为TREAD的创新方法。该工作通过「令牌路由」机制,在不调整模型架构的前提下,大幅提升了训练效率与生成图像质量,从而在速度与性能上明显超越DiT模型。
具体而言,TREAD在训练阶段采用「部分令牌集」与「完整令牌集」的动态切换,通过预定义路由保存信息并重引入深层网络,跳过部分计算以降低成本,此策略仅用于训练,推理时仍保持标准设置。这与MaskDiT等方法理念相近,但实现了更高效率。
论文标题:TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training
论文地址:https://arxiv.org/abs/2501.04765
代码:https://github.com/CompVis/tread
博主在后续阐述中逐步深化对DiT的批判,并解释TREAD如何暴露这些症结。他指出,论文实验表明,若将DiT模型中部分计算单元替换为「恒等函数」(即让数据直接通过,不做任何处理),模型的最终评估分数反而提升,这暗示DiT架构可能存在冗余或设计不当。
博主进一步列举DiT两个「可疑」设计点:
博主认为,DiT使用了一种已知数值稳定性较差的技術(后层归一化)来处理数值范围剧烈波动的扩散过程,这可能加剧训练不稳定性。
博主指出,DiT虽整体基于Transformer架构,但在处理关键条件信息(如时间步或类别)时,并未充分利用Transformer的注意力机制,而是依赖一个简单的MLP(多层感知机)通过adaLN-zero进行调节。这种设计可能限制模型表达能力,相当于「厌恶注意力操作」,从而削弱DiT的潜力。
博主还关联早期LayerNorm研究,指出LayerNorm的偏置与增益参数可能更多影响梯度调节,而非直接提升模型性能。他认为adaLN-zero机制类似「为小模型注入过拟合偏置」,名义上进行梯度调节,实则可能掩盖架构短板。
论文标题:Understanding and Improving Layer Normalization
论文地址:https://arxiv.org/abs/1911.07013
面对此番质疑,DiT原作者、纽约大学计算机科学助理教授谢赛宁予以回应。2022年,谢赛宁团队发表DiT论文,首次将Transformer与扩散模型深度融合,开创了新一代生成模型架构。
论文标题:Scalable Diffusion Models with Transformers
论文链接:https://arxiv.org/pdf/2212.09748
DiT问世后,Transformer逐步替代原始扩散模型中的U-Net,成为图像与视频生成任务的核心骨干,其思想是以Transformer取代传统卷积网络,提升模型扩展性与表现力。
该方法已成为Sora及Stable Diffusion 3等前沿系统的基石,奠定了DiT的学术影响力。然而,DiT自诞生之初便伴随争议,曾因「创新性不足」被CVPR 2023拒稿。此次针对DiT「数学与形式错误」的指控,谢赛宁通过社交媒体给出了几点回复。
从回应语调看,谢赛宁对此话题带有情绪:他坦言原帖或有「钓鱼赚点击」之嫌,但仍愿接招讨论。他强调,研究者的理想正是不断发现自身架构的不足,若架构永远无懈可击,反是更大问题。团队日常通过SiT、REPA、REPA-E等方法尝试突破DiT,但这需基于假设、实验与验证,而非「纸上谈兵式科研」,否则结论不仅错误,甚至缺乏讨论基础。
谢赛宁语气稍显激动,部分源于原帖博主表述具煽动性:
谢赛宁亦从技术层面反驳原帖部分观点,并承认DiT存在改进空间。他列出当前DiT的若干问题:
评论区网友对技术细节兴致浓厚,谢赛宁亦逐一答疑:
算法演进始终伴随对现有范式的质疑与挑战,所谓「不破不立」,但DiT至今仍在舞台中央,持续推动生成模型发展。
本文由主机测评网于2025-12-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251212216.html