当前位置:首页 > 科技资讯 > 正文

InfLLM-V2:高效处理长文本的稀疏注意力模型

InfLLM-V2是一种创新的稀疏注意力模型,它擅长处理长文本,仅需少量数据即可训练,且性能逼近传统稠密模型。通过动态调整短长文本处理模式,显著提升了长上下文任务的效率与质量,实现了从短到长的低成本“无缝切换”,预填充与解码双阶段加速,让长上下文的真正生产力得以释放。

在处理长序列时,效率已成为大模型应用的关键。传统稠密注意力在计算开销上随着序列变长而迅速增长,这直接限制了产品的可用性和成本控制。

为了应对这一挑战,清华大学、OpenBMB和哈尔滨工业大学联合推出了InfLLM-V2:一个零额外参数、训练高效的原生稀疏注意力框架。InfLLM在短文本场景中保持了原生高效率,而在长文本场景中则切换为稀疏模式,实现了端到端的显著加速。

值得一提的是,该方法仅使用5B的长文本词元即可完成稀疏注意力的训练(相比之下,DeepSeek-V3.2-Exp需要近1T词元的数据)。具体来说,InfLLM-V2相较于稠密注意力机制可以实现4倍的速度提升,同时保持98.1%的稠密模型性能用于长文本理解任务,以及99.7%的稠密模型性能用于深思考任务。

InfLLM拥有三个核心优势:

1. 低成本训练:仅需5B长文本数据即可完成稀疏注意力能力的训练,成本低,适配周期短。

2. 短到长无缝切换、效率双优:零新增参数,短序列用稠密、长序列切换为稀疏,完全遵循“短序列预训练-长序列后训练”的主流范式,训练稳定、收敛快。

3. 高效算子实现:针对稀疏注意力“相关上下文选择”的时间瓶颈进行了系统优化,提出了面向硬件的高效实现,显著降低了HBM I/O与计算开销,释放了稀疏注意力的全部潜能。

InfLLM-V2:高效处理长文本的稀疏注意力模型 InfLLM-V2 稀疏注意力 长文本处理 高效模型 第1张

论文链接:https://www.arxiv.org/pdf/2509.24663

模型链接:https://huggingface.co/openbmb/MiniCPM4.1-8B

InfLLM-V2如何实现“强”与“快”的完美结合

在标准的Transformer自注意力中,每个查询词元(Q[t])需与全部历史词元(K[:t])计算相似度并参与注意力计算。这导致在长上下文(可能包含数十万词元)中造成难以承受的时延与成本。经验上,长序列中绝大多数远距离注意力计算并非同等重要,注意力矩阵呈现出显著的“稀疏性”(多数注意力得分接近零)。如果能仅对“少量相关上下文”进行计算,就能显著降低模型注意力计算开销。

稀疏注意力将“每个查询词元都与所有键值交互”的稠密范式替换为“每个查询词元只与一个选定子集交互”的稀疏范式。核心包括两个步骤:块选择和稀疏注意力计算。可训练的稀疏注意力在模型训练过程中引入稀疏机制,能够系统性地提升模型在长文本场景下的效率与质量。

...(内容略)...

与DeepSeek Sparse Attention对比

...(内容略)...

实验结论

长文本理解任务

...(内容略)...

深思考任务

...(内容略)...

效率评测

...(内容略)...

首个开源原生稀疏注意力模型MiniCPM4/MiniCPM4.1

...(内容略)...

参考资料:

https://www.arxiv.org/pdf/2509.24663