当前位置：首页 > 科技资讯 > 正文

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限

主机测评网
科技资讯
2026-03-13
213

你是否曾注意到，当你让AI阅读长篇内容时，它读到后面往往会遗忘前面的信息？当你交给它一份超长文档，它给出的答案常常驴唇不对马嘴？学术界将这一现象命名为‘上下文腐化’。这正是当前AI的普遍缺陷：大模型的记忆能力有限，文本越长，模型表现越糟糕！

就在2025年的最后一天，麻省理工学院（MIT）发布了一篇重磅研究论文，旨在攻克这一难题。

这篇论文名为《Recursive Language Models》，即递归语言模型。

尽管术语听起来高深莫测，但通俗地讲就是一句话：让AI多‘返工’几次，效果便能大幅提升。

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第1张

论文地址：https://arxiv.org/pdf/2512.24601

先透露两个核心数据：

在复杂推理任务上，仅需让模型多处理2-4遍，正确率就能提升10%-25%

在超长文档处理方面，RLM（递归语言模型）在1000万+token的规模下，依然能保持稳定表现，而传统模型则彻底崩溃！

这究竟意味着什么？

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第2张

以往我们认为，AI不够智能，那就给它增加参数、添加显卡、购买更多GPU。

MIT这篇论文直接颠覆了这一认知：别再一味堆参数了，让它‘返工重写’几遍，效果可能更佳。（这简直就像给AI配了个人类监工！）

原来解决问题的钥匙竟如此简单！

并且X上的众多大佬纷纷点赞～

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第3张

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第4张

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第5张

一、从一个令人崩溃的日常问题说起

你是否经历过这样的场景：

让ChatGPT帮忙撰写一篇文章，它洋洋洒洒写了三千字，你一看——天哪，完全跑题。

或者让它帮你写代码，写完后一运行——全是bug。

但神奇的是，当你让它再检查一遍、重新思考一下，有时它就能突然纠正过来。

MIT的研究人员发现，这并非玄学，而是有规律可循的。

大多数AI犯的错误，并非因为它不懂，而是因为它初稿写得太仓促了。

就像你写论文，初稿总是惨不忍睹，但修改三四遍后，就像换了个人写的。

AI亦是如此。

问题是：目前的大模型基本都是‘一遍过’的模式——你输入问题，它输出答案，就此结束。

它自己不会主动返工、不会自我检查、不会反复推敲。

或者换一种思路来理解大模型原先的运作方式：

假设你是个刚入职的实习生，领导递给你一份500页的资料，让你整理出一份报告。

你会怎么做？

正常人的做法是：先翻阅一下，找出重点章节，然后一章一章地细读，读完一章做个总结，最后把所有总结串联起来。

对吧？

但大模型不是这样做的。

大模型的做法是：直接把500页资料从头到尾一口气读完，然后试图凭记忆回答问题。

这要是能记住才怪。

这就是大模型面临的窘境。

它不是不聪明，而是记不住。

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第6张

MIT这篇论文所做的，就是给AI赋予了‘返工’的能力。

二、AI的真正瓶颈：不是脑子不够大，而是记性太差

在深入MIT的解决方案之前，有必要先阐明为什么这个问题至关重要。

你可能听说过一个术语，叫‘上下文窗口’。

什么意思呢？

你可以把AI大模型想象成一个天才，但这个天才有个致命缺陷——他的工作台太小了。

你给他一份超长的资料，让他帮忙分析，但他只能把资料的一小部分放到工作台上处理。

超出工作台大小的部分？看不到，直接忽略。

目前最顶尖的GPT-5，工作台能容纳27万个token（大约相当于20万中文字）。

听着挺厉害的对吧？

但问题来了。

即便在这27万token的限制内，模型的表现也会随着输入变长而急剧下降。

当你给它8000个token时，它表现得非常出色。

给它8万个token时，它开始有些迷糊。

给它27万个token时，它直接开始胡言乱语。

为什么？

因为信息量太大，它处理不过来，脑子乱了。

就像让一个人同时记住一整本百科全书然后回答问题——内容是记住了，但找不到所需的信息了。

这就是大模型当前的困境：不是上下文窗口不够长，而是长了也用不好。

三、MIT的天才构想：把资料放进‘抽屉’里

好了，问题讲清楚了，现在来看MIT的解决方案。

传统做法是：你把资料直接塞进AI的脑子里。

MIT的做法则是：别往脑子里塞，放进抽屉里吧。

他们发明了一种名为RLM的东西。

RLM的核心思路是：不让AI直接读取那份巨长的资料，而是让AI用代码去翻阅那份资料。

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第7张

打个比方。

以前的AI，就像一个学生，你把一整本教科书拍在他面前说：看完，然后回答我的问题。

学生：？？？我看不完啊，能不能只看一部分？

然后他就硬着头皮看前面一部分，后面的直接放弃。

RLM的做法则不同。

它更像是给这个学生配了一个目录系统和搜索引擎。

资料还是那份资料，但学生不用从头读到尾。他可以先翻目录，了解大致结构，然后针对问题去搜索相关段落，把有用的信息提取出来。

更厉害的是，这个学生可以把一个复杂问题拆解成几个小问题，然后——注意重点来了——他可以召唤自己的分身，让分身们同时处理各个小问题，最后汇总答案。

这就是‘递归’的含义：AI可以调用自己的分身，让自己帮自己干活。

或者再降维理解一下：

它把这份超长的文档，当作一个存放在外部的资料库，而不是直接塞进脑子里。

然后，模型可以编写代码，自己去查询这个资料库。

需要第一章的内容？写个代码去查。

需要第十章的内容？再写个代码去查。

需要对比第一章和第十章的内容？

那就先查第一章，做个总结，再查第十章，做个总结，最后把两个总结结合起来。

这就像是一个拥有无限容量的外置硬盘。

模型的脑子里装不下那么多东西，没关系。

可以随时去硬盘里查，用到什么查什么。

这样一来，理论上，模型可以处理无限长的文档。

具体是如何实现的？

MIT的实现方式其实相当巧妙。

他们给AI配备了一个Python编程环境（REPL），把那份超长的资料存成一个变量。

然后AI不再直接去读这份资料，而是用代码去操作它。

例如：

想看资料有多长？写一行代码len(input_text)就知道了

想看资料的前1000个字符？写input_text[:1000]

想在资料里搜索关键词？写个正则表达式

更厉害的是，AI可以把这份资料分段，把每一段交给一个子AI去处理，然后自己汇总结果。

这个子AI，其实用的是同一个模型，只不过是递归调用自己。

这个设计有两大显著优势：

第一，AI无需在脑子里记住那份超长资料了。

资料就放在外面的抽屉里，需要的时候用代码去取。

这就意味着，理论上，资料可以无限长——只要抽屉够大。

第二，AI可以自行判断需要看什么、不需要看什么。

它不会傻乎乎地从头读到尾，而是会聪明地挑重点看。

这大大节省了计算成本，也提高了准确率。

四、效果到底有多震撼？

MIT在论文中做了一系列实验，结果着实令人震撼。

实验一：超长文档理解

他们采用了多个测试集，其中一个是OOLONG测试集，要求AI理解超长文档，并回答需要综合全文信息才能解答的问题。

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第8张

结果：GPT-5基座模型的准确率为44%，而RLM达到了56.5%。

在CodeQA测试中，GPT-5基座模型的准确率仅为24%，而RLM高达62%，直接提升了2.7倍！

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第9张

实验二：超超超长文档（1000万+token）

他们还将文档长度一路拉到1000万token以上（相当于几十本书的体量）。

GPT-5？根本处理不了，直接崩溃。

RLM(GPT-5)？稳如泰山，表现几乎不下降。

这是一个质的飞跃。

实验三：成本对比

你可能会想：这么牛的东西，是不是成本极高？

神奇的是，并非如此。

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第10张

在BrowseComp-Plus基准测试中，让GPT-5-mini直接处理600万-1100万token的输入，成本约为1.5-2.75美元。

而RLM(GPT-5)的平均成本仅为0.99美元。

更便宜，效果还更好。

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限递归语言模型大模型记忆长文本处理 AI推理第11张

为什么？

因为RLM不会傻傻地把所有内容都读一遍，它只读取需要的部分。

这个发现为何如此重要？

MIT这篇论文的意义，远不止于让AI处理更长的文档。

它揭示了一个更为根本的道理：

AI的能力边界，不仅取决于模型本身的大小和参数多少，还取决于你如何使用它。

以前我们的思路是：模型不够强——那就增加参数。

MIT告诉我们：等等，也许不必增加参数，让它多想几遍就够了。

回到开头提到的发现：

在多步推理任务中，仅增加2-4次递归处理，正确率就能提升10%-25%。大约4次迭代后，收益逐渐趋于平缓。

这说明什么？

大多数AI犯的错，都是初稿错误：不是它不懂，而是它第一遍太草率了。

让它返工几次，就能改对。（所以有时候，你在使用AI时，还真得当个监工，让AI多输出几次）

这与人类的做法如出一辙。

任何牛逼的程序员都知道，第一版代码永远是最烂的，代码质量是改出来的，不是写出来的。

任何牛逼的作家都知道，初稿永远是废稿，好文章是改出来的，不是写出来的。

如今，AI也一样了。

五、未来展望

MIT在论文最后提到，这仅仅是一个开始。

目前的RLM还有许多可以优化的空间：

1.异步调用：目前子任务是一个接一个执行的，如果能并行执行，速度会更快。

2.更深的递归：目前只允许一层递归（AI调用自己的分身），如果允许分身再调用分身，理论上能处理更复杂的任务。

3.专门训练：目前RLM用的是现成的大模型，如果专门为递归思考训练一个模型，效果可能更惊人。

MIT的研究者们相信，这可能代表了大模型能力扩展的一个新方向：

不是一味地堆参数、堆算力，而是让模型学会更聪明地思考。

彩蛋

MIT这篇论文，让我想起了一个老笑话：

客户问程序员：这个bug你修了多久？

程序员说：5分钟。

客户说：那为什么收我500块？

程序员说：找出问题所在，花了我3天。

AI也是一样。

它的思考时间远比我们想象的更重要。

给它一点返工的机会，它可能就能从‘还行’变成‘牛逼’。

这也许就是下一代AI进化的方向：不是更大的脑子，而是更深度的思考。

参考资料：

https://x.com/a1zhang/status/2007198916073136152?s=20

免费vps 高防服务器性价比vps

本文由主机测评网于2026-03-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260331102.html

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限

一、从一个令人崩溃的日常问题说起

二、AI的真正瓶颈：不是脑子不够大，而是记性太差

三、MIT的天才构想：把资料放进‘抽屉’里

四、效果到底有多震撼？

五、未来展望

彩蛋

2025锂电行业扩产潮起：产业链深度绑定，长协订单与股权合作重塑竞争格局

OpenAI首款AI硬件曝光：Jony Ive设计的智能笔oPen，重新定义人机交互

MIT递归语言模型：让AI通过‘返工’突破长文本处理极限

一、从一个令人崩溃的日常问题说起

二、AI的真正瓶颈：不是脑子不够大，而是记性太差

三、MIT的天才构想：把资料放进‘抽屉’里

四、效果到底有多震撼？

五、未来展望

彩蛋

2025锂电行业扩产潮起：产业链深度绑定，长协订单与股权合作重塑竞争格局

OpenAI首款AI硬件曝光：Jony Ive设计的智能笔oPen，重新定义人机交互

相关文章