当前位置：首页 > 科技资讯 > 正文

Meta超级智能实验室推出REFRAG：革命性RAG解码加速框架

主机测评网
科技资讯
2025-12-29
289

Meta超级智能实验室近日发布了其首篇学术论文，正式向公众展示了他们的研究成果。

该论文引入了一个名为REFRAG的高效解码框架，这一框架对传统的检索增强生成（RAG）技术进行了重新定义，实验数据显示，它能将首字生成延迟（TTFT）最高加速30倍。

Meta超级智能实验室推出REFRAG：革命性RAG解码加速框架 REFRAG框架 RAG优化首字生成延迟 Meta超级智能实验室第1张

作为超级智能实验室的“开山之作”，这项研究一经公布，便在网络上引发了广泛讨论和热议。

Meta超级智能实验室推出REFRAG：革命性RAG解码加速框架 REFRAG框架 RAG优化首字生成延迟 Meta超级智能实验室第2张

例如，有Reddit网友评论道：

如果实际效果真如论文所述，那么这对RAG技术来说是一个显著的改进，它似乎能在不牺牲准确性的前提下，大幅提升处理速度和上下文容量。

Meta超级智能实验室推出REFRAG：革命性RAG解码加速框架 REFRAG框架 RAG优化首字生成延迟 Meta超级智能实验室第3张

长久以来，RAG上下文计算冗余问题亟待解决

首先，让我们回顾一下RAG的基本工作原理。

当大型语言模型（LLM）需要回答依赖特定背景知识的问题时，如果仅仅依靠其内部参数化知识，可能会产生事实错误或信息过时等问题。

RAG技术通过检索外部知识库（如企业文档或专业数据库），提取与问题最相关的信息，并将其作为上下文与原始问题一起输入给LLM。LLM在获得这些精准参考材料后，能够生成更可靠、更具时效性的答案。

然而，这种模式在工程实现上面临着重大挑战，即推理效率与信息量之间的平衡。

当AI检索到的参考资料数量庞大（即所谓的“长上下文”）时，LLM的处理压力会急剧上升。

模型处理上下文的计算复杂度通常与上下文长度的平方成正比，这导致生成第一个词元的延迟（Time-to-First-Token, TTFT）明显增加，直接影响了实时交互应用的用户体验。

同时，处理长上下文还意味着更高的计算和内存成本，给系统的规模化部署带来困难。

Meta超级智能实验室推出REFRAG：革命性RAG解码加速框架 REFRAG框架 RAG优化首字生成延迟 Meta超级智能实验室第4张

在此背景下，Meta超级智能实验室的研究人员发现，在RAG应用中，LLM处理多个检索文档时存在大量的计算冗余。

通过实验，他们观察到模型内部的注意力机制在处理这些文档时，表现出一种“块对角”的稀疏模式。

这意味着，模型的注意力主要聚焦于单个文档内部，以及各文档与用户问题之间的关联。而不同文档片段之间的交叉注意力得分通常较低，表明它们之间的关联性较弱。

然而，标准的Transformer架构并不区分这些关联性的强弱，而是对上下文中的所有词元进行全局注意力计算，这导致大量计算资源被浪费在分析关联性较弱的文档片段上。

基于这一发现，研究团队提出：RAG解码过程中的大部分注意力计算对最终结果的贡献有限，可以在不明显影响性能的情况下进行优化或移除。

REFRAG框架便是在这一理念下诞生的。

REFRAG：一种选择性压缩解码方案

REFRAG框架主要通过“压缩（Compress）、感知（Sense）、扩展（Expand）”三个步骤，优化LLM处理外部知识的方式。

Meta超级智能实验室推出REFRAG：革命性RAG解码加速框架 REFRAG框架 RAG优化首字生成延迟 Meta超级智能实验室第5张

压缩：将上下文转换为紧凑表征

REFRAG首先改变了上下文的呈现方式。它没有将所有检索到的原始文本直接输入给主LLM，而是引入了一个轻量级编码器模型。

这个编码器将长篇参考资料分割成多个“块”，并为每个块生成一个紧凑的向量表示，称为“块嵌入”。块嵌入可以看作是原始文本块的浓缩摘要。

这一步带来两个直接好处：首先是缩短输入序列长度，因为LLM需要处理的输入从数千个词元减少到数百个块嵌入，显著降低了后续计算量。

其次，这些块嵌入可以预先计算并存储，当知识库中的同一文档被再次检索时，系统可以直接调用缓存的嵌入，避免重复编码计算。

感知：智能判断关键信息

考虑到并非所有信息都适合压缩，某些包含关键细节的文本片段需要保留原始形式。

为此，REFRAG训练了一个基于强化学习（RL）的策略网络。

这个网络的功能是分析所有块嵌入和用户问题，判断哪些文本块包含核心信息，需要以原始文本形式呈现给LLM。

扩展：结合压缩与原始文本

经过前两步处理，最终输入到主LLM的是一个混合序列，包含大部分上下文的块嵌入（压缩表示）和少量被判断为关键的原始文本块。

LLM基于这份优化后的输入材料生成答案，大部分背景信息通过压缩表示快速获取，核心细节则通过原始文本精确理解。这种方式在保留关键信息的同时，最大程度降低了计算负载。

性能无损，效率显著提升

根据论文数据，REFRAG框架在多个维度上取得了突出成果。

在推理速度方面，以首字生成延迟（TTFT）为例，REFRAG实现了最高30.85倍的加速。与先前先进方法相比，也有3.75倍的提升。

这意味着在需要快速响应的场景中，系统延迟能得到有效控制。

Meta超级智能实验室推出REFRAG：革命性RAG解码加速框架 REFRAG框架 RAG优化首字生成延迟 Meta超级智能实验室第6张

实验还表明，在获得显著加速的同时，REFRAG在困惑度以及多种下游任务（如问答、摘要）的准确率上，与使用完整上下文的基线模型相比没有性能损失。

此外，由于压缩技术使模型能在同等计算预算下处理更多信息，上下文窗口等效扩大了16倍，这在某些任务上反而带来了性能提升。

据了解，这一方法的设计不仅适用于RAG，也适用于多轮对话、长文档摘要等其他需要处理长上下文的任务。

总而言之，Meta超级智能实验室的这项研究通过巧妙算法设计，有效解决了大模型处理长上下文时的核心效率问题。REFRAG为开发更高效、更经济、更具扩展性的AI应用提供了重要解决方案。

参考链接：

[1]https://arxiv.org/abs/2509.01092

[2]https://www.reddit.com/r/singularity/comments/1nai17r/new_research_from_meta_superintelligence_labs_big/

高防服务器性价比vps 免费vps

本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20251213793.html

Meta超级智能实验室推出REFRAG：革命性RAG解码加速框架

长久以来，RAG上下文计算冗余问题亟待解决