当前位置：首页 > 科技资讯 > 正文

InfLLM-V2：高效处理长文本的稀疏注意力模型

主机测评网
科技资讯
2026-05-03
169

InfLLM-V2是一种创新的稀疏注意力模型，它擅长处理长文本，仅需少量数据即可训练，且性能逼近传统稠密模型。通过动态调整短长文本处理模式，显著提升了长上下文任务的效率与质量，实现了从短到长的低成本“无缝切换”，预填充与解码双阶段加速，让长上下文的真正生产力得以释放。

在处理长序列时，效率已成为大模型应用的关键。传统稠密注意力在计算开销上随着序列变长而迅速增长，这直接限制了产品的可用性和成本控制。

为了应对这一挑战，清华大学、OpenBMB和哈尔滨工业大学联合推出了InfLLM-V2：一个零额外参数、训练高效的原生稀疏注意力框架。InfLLM在短文本场景中保持了原生高效率，而在长文本场景中则切换为稀疏模式，实现了端到端的显著加速。

值得一提的是，该方法仅使用5B的长文本词元即可完成稀疏注意力的训练（相比之下，DeepSeek-V3.2-Exp需要近1T词元的数据）。具体来说，InfLLM-V2相较于稠密注意力机制可以实现4倍的速度提升，同时保持98.1%的稠密模型性能用于长文本理解任务，以及99.7%的稠密模型性能用于深思考任务。

InfLLM拥有三个核心优势：

1. 低成本训练：仅需5B长文本数据即可完成稀疏注意力能力的训练，成本低，适配周期短。

2. 短到长无缝切换、效率双优：零新增参数，短序列用稠密、长序列切换为稀疏，完全遵循“短序列预训练-长序列后训练”的主流范式，训练稳定、收敛快。

3. 高效算子实现：针对稀疏注意力“相关上下文选择”的时间瓶颈进行了系统优化，提出了面向硬件的高效实现，显著降低了HBM I/O与计算开销，释放了稀疏注意力的全部潜能。

InfLLM-V2：高效处理长文本的稀疏注意力模型 InfLLM-V2 稀疏注意力长文本处理高效模型第1张

论文链接：https://www.arxiv.org/pdf/2509.24663

模型链接：https://huggingface.co/openbmb/MiniCPM4.1-8B

InfLLM-V2如何实现“强”与“快”的完美结合

在标准的Transformer自注意力中，每个查询词元(Q[t])需与全部历史词元(K[:t])计算相似度并参与注意力计算。这导致在长上下文（可能包含数十万词元）中造成难以承受的时延与成本。经验上，长序列中绝大多数远距离注意力计算并非同等重要，注意力矩阵呈现出显著的“稀疏性”（多数注意力得分接近零）。如果能仅对“少量相关上下文”进行计算，就能显著降低模型注意力计算开销。

稀疏注意力将“每个查询词元都与所有键值交互”的稠密范式替换为“每个查询词元只与一个选定子集交互”的稀疏范式。核心包括两个步骤：块选择和稀疏注意力计算。可训练的稀疏注意力在模型训练过程中引入稀疏机制，能够系统性地提升模型在长文本场景下的效率与质量。

...（内容略）...