何恺明再次展现其回归初心的研究风格。
最新研究论文彻底改变扩散模型的常规方法——不再让模型预测噪声,而是直接生成清晰图像。
如果你了解何恺明的工作,会发现这是他典型的创新路径:不追求复杂架构,而是将问题简化到本质,让模型专注于最擅长的任务。
实际上,扩散模型发展多年,架构日益复杂,例如预测噪声、预测速度、对齐潜在空间、堆叠分词器、加入VAE、添加感知损失等。
但人们往往忽略,扩散模型本质上是去噪模型。
这篇新论文重新审视这一点,既然称为去噪模型,为何不直接进行去噪?
因此,继ResNet、MAE之后,何恺明团队再次提出“大道至简”的理念:扩散模型应回归本源——直接预测图像。
当前主流扩散模型,尽管设计思想基于去噪,但训练时神经网络常预测噪声或混合图像与噪声的速度场,而非干净图像。
实际上,预测噪声与预测干净图像相差甚远。
根据流形假设,自然图像分布于高维像素空间的低维流形上,是有规律的干净数据;噪声则均匀充斥整个高维空间,缺乏低维结构。
简单比喻,高维像素空间如同巨大3D房间,干净自然图像都集中在房间内的2D屏幕上。这就是流形假设——自然数据看似高维,实则集中于低维“曲面”。
但噪声不同,它是弥漫整个3D房间的雪花点,不在屏幕上;速度场同样,一半在屏上、一半在屏外,脱离“流形”规律。
这导致核心矛盾:处理高维数据时,如将图像切分为大Patch,要求神经网络拟合无规律高维噪声,需极大模型容量,易导致训练崩溃。
相反,让网络直接预测干净图像,本质是学习将噪声投影回低维流形,对网络容量要求更低,更符合神经网络“过滤噪声、保留信号”的设计初衷。
因此,文章提出极简架构JiT——Just image Transformers。
顾名思义,这是纯处理图像的Transformer,设计非常简单。无需VAE压缩潜空间,无任何分词器,不依赖CLIP或DINO等预训练特征对齐,也不使用额外损失函数。
完全从像素出发,用纯粹Transformer进行去噪。
JiT类似标准ViT,将原始像素切为大Patch(维度可高达3072维或更高)直接输入,唯一改动是输出目标设为直接预测干净图像块。
实验显示,低维空间下,预测噪声和预测原图表现相近;但进入高维空间,传统预测噪声模型彻底崩溃,FID指数飙升,而直接预测原图的JiT保持稳健。
模型扩展能力出色。即使将patch尺寸扩大到64x64,输入维度高达一万多维,只要坚持预测原图,无需增加网络宽度也能实现高质量生成。
团队甚至发现,输入端人为引入瓶颈层降维,不仅不会导致模型失效,反而因契合流形学习过滤噪声本质,进一步提升生成质量。
这种极简架构在不依赖任何复杂组件或预训练情况下,在ImageNet 256x256和512x512上达到1.82和1.78的SOTA级FID分数。
论文一作是何恺明的开门弟子之一黎天鸿,本科毕业于清华姚班,在MIT获硕博学位后,现于何恺明组从事博士后研究。
主要研究方向是表征学习、生成模型及两者协同。目标是构建能理解人类感知之外世界的智能视觉系统。
此前作为一作与何恺明开发自条件图像生成框架RCG,团队最新多项研究也有参与。
他也是一位喜爱湖南菜的学者,甚至将菜谱展示在个人主页上。
论文地址:https://arxiv.org/abs/2511.13720
本文由主机测评网于2026-01-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120563.html