当前位置：首页 > 科技资讯 > 正文

革新Attention机制：上海大学团队提升VLMs剪枝性能

主机测评网
科技资讯
2026-06-17
629

【导读】传统的attention机制存在位置偏置和padding异常，影响剪枝效果。上海大学曾丹团队提出了一种无需重新训练的attention去偏方法，显著提升剪枝性能，使模型在信息受限时仍能可靠运行，为VLMs在移动端和边缘计算等场景的高效部署提供了新的思路。

近年来，Vision-Language Models（视觉-语言模型）在多模态理解任务中取得了显著进展，逐渐成为通用人工智能的重要技术路线。

然而，这类模型在实际应用中面临推理开销大、效率受限的问题，研究者通常依赖visual token pruning等策略降低计算成本，其中attention机制被广泛视为衡量视觉信息重要性的关键依据。

近日，上海大学曾丹团队联合南开大学研究人员，从attention可靠性的角度出发，系统揭示了Vision-Language Models中普遍存在的attention偏置问题，并提出了一种无需重新训练的attention去偏方法，在多个主流模型、剪枝策略及图像与视频基准上验证了其有效性，为多模态模型的高效、可靠部署提供了新的思路。

革新Attention机制：上海大学团队提升VLMs剪枝性能 Attention偏置视觉-语言模型剪枝性能无需重新训练第1张

文章代码：https://github.com/intcomp/attention-bias
文章链接：https://arxiv.org/abs/2508.17807

研究意义

近年来，视觉-语言模型（Vision-Language Models，VLMs）在图像理解、视觉问答、多模态对话等任务中表现突出，并逐渐成为通用人工智能的重要技术基础。

然而，这类模型在实际部署时面临一个严峻挑战：模型推理成本高、速度慢。

为提升效率，研究者通常会采用visual token pruning（视觉 token 剪枝）技术，即在不显著影响性能的前提下，丢弃不重要的视觉信息。其中，attention机制被广泛用作判断「哪些视觉 token 更重要」的核心依据。

但上海大学曾丹团队在研究中发现：attention并不总是可靠的「重要性指标」。

在多模态模型中，attention 往往受到多种结构性偏置的影响，这些偏置与真实语义无关，却会直接左右剪枝结果，从而影响模型性能。

针对这一问题，该团队系统分析了VLM中attention的行为特性，提出了一种Attention Debiasing（注意力去偏）方法，在无需重新训练模型的前提下，有效提升了多种主流剪枝方法的稳定性与可靠性。

革新Attention机制：上海大学团队提升VLMs剪枝性能 Attention偏置视觉-语言模型剪枝性能无需重新训练第2张

研究背景

直觉上，attention机制被理解为「模型更关注哪里」，因此被自然地视为语义重要性的体现。

然而，曾丹团队的研究表明，在Vision-Language Models中，attention 往往并非只由内容决定，而是隐含着多种系统性偏置。

其中最典型的有两类：

第一类是位置偏置（recency bias）。研究发现，language-to-vision attention 会随着视觉 token 在序列中的位置不断增大。这通常表现为模型对图像下方区域给予更高 attention，即便这些区域并不包含关键信息。

革新Attention机制：上海大学团队提升VLMs剪枝性能 Attention偏置视觉-语言模型剪枝性能无需重新训练第3张

第二类是padding引发的attention sink现象。在实际输入中，图像往往需要padding以统一尺寸。然而，由于hidden state中出现异常激活，padding对应的token反而可能获得较高attention。

革新Attention机制：上海大学团队提升VLMs剪枝性能 Attention偏置视觉-语言模型剪枝性能无需重新训练第4张

更值得注意的是，当attention被用于剪枝排序时，这些偏置并不会被削弱，反而会被进一步放大，最终导致剪枝结果偏离真实语义需求。

研究方法

针对上述问题，上海大学曾丹团队没有提出新的剪枝算法或修改模型结构。他们从一个更基础的角度出发：既然attention本身是有偏的，是否可以先对attention进行修正？

该团队观察到，attention中的偏置并非随机噪声，而是呈现出稳定的整体趋势。因此，他们通过对attention随token位置变化的趋势进行拟合，构建了一条反映「位置偏置」的曲线。在此基础上对原始attention进行去偏修正，显式削弱与内容无关的位置因素。

革新Attention机制：上海大学团队提升VLMs剪枝性能 Attention偏置视觉-语言模型剪枝性能无需重新训练第5张

实验结果和应用前景

在实验验证中，该团队将Attention Debiasing方法集成到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等六种主流attention-based剪枝方法中。在十个图像理解基准与三个视频理解基准上进行了系统评估。

实验结果表明，在几乎所有设置下，经过attention去偏修正后，剪枝模型都能获得一致且稳定的性能提升。这说明对attention进行去偏处理有助于模型在「更少信息」的条件下做出更可靠的判断。

革新Attention机制：上海大学团队提升VLMs剪枝性能 Attention偏置视觉-语言模型剪枝性能无需重新训练第6张

云服务器服务器教程免费服务器

本文由主机测评网于2026-06-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260647955.html

上一篇

2025年CMO洞察：人性价值与技术融合，重塑营销版图

下一篇

春节AI大战：字节、阿里与DeepSeek的终极较量