当前位置：首页 > 科技资讯 > 正文

推特辩论催生iREPA：空间结构成视觉生成关键

主机测评网
科技资讯
2026-03-06
681

真正的学术灵感，有时就源自推特的偶然碰撞。

近日，谢赛宁透露，其团队的最新成果iREPA竟起源于四个多月前与网友的一场在线讨论。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第1张

这场短暂的线上交锋虽然以谢赛宁被网友说服落幕，但三个月后竟催生意想不到的成果——

多个研究团队携手，沿着这一思路完成了完整的论文，其核心框架仅需三行代码即可实现。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第2张

致谢部分还特意提及了当时参与讨论的网友。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第3张

一场推特讨论引发的学术论文

事情经过是这样的。

一位网友在8月份提出：

别再执着于ImageNet-1K的分类分数了！自监督学习（SSL）模型应该专为稠密任务（如REPA、VLM等）而训练，因为这些任务真正依赖的是patch tokens中的空间和局部信息，而非[CLS]token所代表的全局分类性能。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第4张

（注：稠密任务指要求模型对图像中的“每个像素”或“每个局部区域”进行预测的计算机视觉任务，这类任务需要精细的空间和局部细节，而不仅仅是全局分类标签）

对于网友的观点，谢赛宁回应：

不，使用patch token并不等同于处理稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关，而与patch级别的对应关系关联很弱。这并非[CLS]token的问题，而是高层语义与低层像素相似性之间的本质差异。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第5张

针对谢赛宁的反驳，网友举出了SigLIPv2和PE-core优于DINOv2 for REPA的实例。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第6张

与此同时，另一位网友也加入讨论：

这是个合理的疑问。为进行直接对比，在没有DINOv3早期checkpoint的情况下，或许可以用REPA来比较PEspatial和PEcore。其中，PEspatial可理解为：将PEcore的Gram-anchor对齐到更早的网络层，并结合SAM2.1。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第7张

对此，谢赛宁表示：

非常好！感谢你的指点和提示。我很欣赏这个方案，否则干扰因素会太多。两个checkpoint都已具备（G/14，448分辨率），希望很快能看到一些结果。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第8张

三个多月后，谢赛宁坦言自己先前的判断站不住脚，而这篇论文反而带来了更深层的认识。

还有贴心提示，建议网友查阅致谢部分。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第9张

对于自己被致谢提及，参与讨论的网友之一表示很有趣：

也谢谢你持续跟进！被致谢提及让我受宠若惊。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第10张

谢赛宁还表示，这次讨论本身就是一次小实验——他想验证一种新的“线上茶水间效应”是否真的能发生。

他很享受这种过程：先有分歧和争论，再通过真正的实验和投入，将直觉拉回到可验证的科学结论上。

不得不说，如此开放、即时、可纠错的学术讨论，确实值得多提倡。

接下来，我们就一同看看由此催生的最新论文。

空间结构才是驱动目标表征生成性能的核心因素

承接上述讨论，这篇最新论文探讨了一个根本的基础问题：

在用预训练视觉编码器表征来指导生成模型时，究竟是表征的哪一部分决定了生成质量？

是其全局语义信息（ImageNet-1K上的分类准确率）还是其空间结构（即补丁tokens之间的成对余弦相似度）？

论文给出的结论是：更好的全局语义信息并不等同于更好的生成，空间结构（而非全局语义）才是表征生成性能的驱动力。

传统观念（包括谢赛宁本人）认为具有更强全局语义性能的表征会带来更佳的生成效果，但研究却表明更大的视觉编码器反而可能导致更差的生成性能。

例如，线性检测准确率仅约20%的视觉编码器，竟能超越准确率>80%的编码器。

而且，如果试图通过CLS token向patch token注入更多全局语义，生成性能反而会被拉低。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第11张

与此同时，研究还发现生成效果更佳的表征，往往具有更强的空间结构（可通过空间自相似性指标来衡量）：

也就是说，图像中某一部分的token如何关注图像中其他区域的token。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第12张

在具体研究方法上，研究通过一次大规模的定量相关性分析对这一观察进行了细化验证：分析覆盖了27种不同的视觉编码器（包括DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP等）以及3种模型规模（B、L、XL）。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第13张

而在进一步评测中，空间信息的重要性被进一步凸显：即便是像SIFT、HOG这样的经典空间特征，也能带来与PE-G等现代、更大规模视觉编码器相当、具有竞争力的提升。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第14张

在测试得出结论后，论文又基于现有的表征对齐（REPA）框架进行分析和修改，提出了iREPA。

投影层改进：将REPA中标准的MLP投影层替换为一个简单的卷积层。

空间规范化：为外部表征引入一个空间规范化层。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第15张

这些简单修改（如在DeCo框架下的实现）旨在保留并强化空间结构信息，相比原始的REPA方法能显著提升性能。

值得一提的是，iREPA只需三行代码即可添加到任何表示对齐方法中，并且在各种训练方案（如REPA、REPA-E、Meanflow以及最近推出的JiT）中都能实现持续更快的收敛。

推特辩论催生iREPA：空间结构成视觉生成关键 iREPA 自监督学习空间结构视觉生成第16张

参考链接

[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736

服务器教程性价比服务器阿里云服务器

本文由主机测评网于2026-03-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260329040.html

上一篇

赋能之路：我用一本“活的教科书”，带出了一个鸿蒙王牌战队！（从零到一打造鸿蒙精英团队的实战教程）

下一篇

如何在另一台Ubuntu上快速复刻本地uv虚拟环境？（一篇小白教程，轻松实现Python依赖迁移）