你是否曾注意到,当你让AI阅读长篇内容时,它读到后面往往会遗忘前面的信息?当你交给它一份超长文档,它给出的答案常常驴唇不对马嘴?学术界将这一现象命名为‘上下文腐化’。这正是当前AI的普遍缺陷:大模型的记忆能力有限,文本越长,模型表现越糟糕!
就在2025年的最后一天,麻省理工学院(MIT)发布了一篇重磅研究论文,旨在攻克这一难题。
这篇论文名为《Recursive Language Models》,即递归语言模型。
尽管术语听起来高深莫测,但通俗地讲就是一句话:让AI多‘返工’几次,效果便能大幅提升。
论文地址:https://arxiv.org/pdf/2512.24601
先透露两个核心数据:
在复杂推理任务上,仅需让模型多处理2-4遍,正确率就能提升10%-25%
在超长文档处理方面,RLM(递归语言模型)在1000万+token的规模下,依然能保持稳定表现,而传统模型则彻底崩溃!
这究竟意味着什么?
以往我们认为,AI不够智能,那就给它增加参数、添加显卡、购买更多GPU。
MIT这篇论文直接颠覆了这一认知:别再一味堆参数了,让它‘返工重写’几遍,效果可能更佳。(这简直就像给AI配了个人类监工!)
原来解决问题的钥匙竟如此简单!
并且X上的众多大佬纷纷点赞~
你是否经历过这样的场景:
让ChatGPT帮忙撰写一篇文章,它洋洋洒洒写了三千字,你一看——天哪,完全跑题。
或者让它帮你写代码,写完后一运行——全是bug。
但神奇的是,当你让它再检查一遍、重新思考一下,有时它就能突然纠正过来。
MIT的研究人员发现,这并非玄学,而是有规律可循的。
大多数AI犯的错误,并非因为它不懂,而是因为它初稿写得太仓促了。
就像你写论文,初稿总是惨不忍睹,但修改三四遍后,就像换了个人写的。
AI亦是如此。
问题是:目前的大模型基本都是‘一遍过’的模式——你输入问题,它输出答案,就此结束。
它自己不会主动返工、不会自我检查、不会反复推敲。
或者换一种思路来理解大模型原先的运作方式:
假设你是个刚入职的实习生,领导递给你一份500页的资料,让你整理出一份报告。
你会怎么做?
正常人的做法是:先翻阅一下,找出重点章节,然后一章一章地细读,读完一章做个总结,最后把所有总结串联起来。
对吧?
但大模型不是这样做的。
大模型的做法是:直接把500页资料从头到尾一口气读完,然后试图凭记忆回答问题。
这要是能记住才怪。
这就是大模型面临的窘境。
它不是不聪明,而是记不住。
MIT这篇论文所做的,就是给AI赋予了‘返工’的能力。
在深入MIT的解决方案之前,有必要先阐明为什么这个问题至关重要。
你可能听说过一个术语,叫‘上下文窗口’。
什么意思呢?
你可以把AI大模型想象成一个天才,但这个天才有个致命缺陷——他的工作台太小了。
你给他一份超长的资料,让他帮忙分析,但他只能把资料的一小部分放到工作台上处理。
超出工作台大小的部分?看不到,直接忽略。
目前最顶尖的GPT-5,工作台能容纳27万个token(大约相当于20万中文字)。
听着挺厉害的对吧?
但问题来了。
即便在这27万token的限制内,模型的表现也会随着输入变长而急剧下降。
当你给它8000个token时,它表现得非常出色。
给它8万个token时,它开始有些迷糊。
给它27万个token时,它直接开始胡言乱语。
为什么?
因为信息量太大,它处理不过来,脑子乱了。
就像让一个人同时记住一整本百科全书然后回答问题——内容是记住了,但找不到所需的信息了。
这就是大模型当前的困境:不是上下文窗口不够长,而是长了也用不好。
好了,问题讲清楚了,现在来看MIT的解决方案。
传统做法是:你把资料直接塞进AI的脑子里。
MIT的做法则是:别往脑子里塞,放进抽屉里吧。
他们发明了一种名为RLM的东西。
RLM的核心思路是:不让AI直接读取那份巨长的资料,而是让AI用代码去翻阅那份资料。
打个比方。
以前的AI,就像一个学生,你把一整本教科书拍在他面前说:看完,然后回答我的问题。
学生:???我看不完啊,能不能只看一部分?
然后他就硬着头皮看前面一部分,后面的直接放弃。
RLM的做法则不同。
它更像是给这个学生配了一个目录系统和搜索引擎。
资料还是那份资料,但学生不用从头读到尾。他可以先翻目录,了解大致结构,然后针对问题去搜索相关段落,把有用的信息提取出来。
更厉害的是,这个学生可以把一个复杂问题拆解成几个小问题,然后——注意重点来了——他可以召唤自己的分身,让分身们同时处理各个小问题,最后汇总答案。
这就是‘递归’的含义:AI可以调用自己的分身,让自己帮自己干活。
或者再降维理解一下:
它把这份超长的文档,当作一个存放在外部的资料库,而不是直接塞进脑子里。
然后,模型可以编写代码,自己去查询这个资料库。
需要第一章的内容?写个代码去查。
需要第十章的内容?再写个代码去查。
需要对比第一章和第十章的内容?
那就先查第一章,做个总结,再查第十章,做个总结,最后把两个总结结合起来。
这就像是一个拥有无限容量的外置硬盘。
模型的脑子里装不下那么多东西,没关系。
可以随时去硬盘里查,用到什么查什么。
这样一来,理论上,模型可以处理无限长的文档。
具体是如何实现的?
MIT的实现方式其实相当巧妙。
他们给AI配备了一个Python编程环境(REPL),把那份超长的资料存成一个变量。
然后AI不再直接去读这份资料,而是用代码去操作它。
例如:
想看资料有多长?写一行代码len(input_text)就知道了
想看资料的前1000个字符?写input_text[:1000]
想在资料里搜索关键词?写个正则表达式
更厉害的是,AI可以把这份资料分段,把每一段交给一个子AI去处理,然后自己汇总结果。
这个子AI,其实用的是同一个模型,只不过是递归调用自己。
这个设计有两大显著优势:
第一,AI无需在脑子里记住那份超长资料了。
资料就放在外面的抽屉里,需要的时候用代码去取。
这就意味着,理论上,资料可以无限长——只要抽屉够大。
第二,AI可以自行判断需要看什么、不需要看什么。
它不会傻乎乎地从头读到尾,而是会聪明地挑重点看。
这大大节省了计算成本,也提高了准确率。
MIT在论文中做了一系列实验,结果着实令人震撼。
实验一:超长文档理解
他们采用了多个测试集,其中一个是OOLONG测试集,要求AI理解超长文档,并回答需要综合全文信息才能解答的问题。
结果:GPT-5基座模型的准确率为44%,而RLM达到了56.5%。
在CodeQA测试中,GPT-5基座模型的准确率仅为24%,而RLM高达62%,直接提升了2.7倍!
实验二:超超超长文档(1000万+token)
他们还将文档长度一路拉到1000万token以上(相当于几十本书的体量)。
GPT-5?根本处理不了,直接崩溃。
RLM(GPT-5)?稳如泰山,表现几乎不下降。
这是一个质的飞跃。
实验三:成本对比
你可能会想:这么牛的东西,是不是成本极高?
神奇的是,并非如此。
在BrowseComp-Plus基准测试中,让GPT-5-mini直接处理600万-1100万token的输入,成本约为1.5-2.75美元。
而RLM(GPT-5)的平均成本仅为0.99美元。
更便宜,效果还更好。
为什么?
因为RLM不会傻傻地把所有内容都读一遍,它只读取需要的部分。
这个发现为何如此重要?
MIT这篇论文的意义,远不止于让AI处理更长的文档。
它揭示了一个更为根本的道理:
AI的能力边界,不仅取决于模型本身的大小和参数多少,还取决于你如何使用它。
以前我们的思路是:模型不够强——那就增加参数。
MIT告诉我们:等等,也许不必增加参数,让它多想几遍就够了。
回到开头提到的发现:
在多步推理任务中,仅增加2-4次递归处理,正确率就能提升10%-25%。大约4次迭代后,收益逐渐趋于平缓。
这说明什么?
大多数AI犯的错,都是初稿错误:不是它不懂,而是它第一遍太草率了。
让它返工几次,就能改对。(所以有时候,你在使用AI时,还真得当个监工,让AI多输出几次)
这与人类的做法如出一辙。
任何牛逼的程序员都知道,第一版代码永远是最烂的,代码质量是改出来的,不是写出来的。
任何牛逼的作家都知道,初稿永远是废稿,好文章是改出来的,不是写出来的。
如今,AI也一样了。
MIT在论文最后提到,这仅仅是一个开始。
目前的RLM还有许多可以优化的空间:
1.异步调用:目前子任务是一个接一个执行的,如果能并行执行,速度会更快。
2.更深的递归:目前只允许一层递归(AI调用自己的分身),如果允许分身再调用分身,理论上能处理更复杂的任务。
3.专门训练:目前RLM用的是现成的大模型,如果专门为递归思考训练一个模型,效果可能更惊人。
MIT的研究者们相信,这可能代表了大模型能力扩展的一个新方向:
不是一味地堆参数、堆算力,而是让模型学会更聪明地思考。
MIT这篇论文,让我想起了一个老笑话:
客户问程序员:这个bug你修了多久?
程序员说:5分钟。
客户说:那为什么收我500块?
程序员说:找出问题所在,花了我3天。
AI也是一样。
它的思考时间远比我们想象的更重要。
给它一点返工的机会,它可能就能从‘还行’变成‘牛逼’。
这也许就是下一代AI进化的方向:不是更大的脑子,而是更深度的思考。
参考资料:
https://x.com/a1zhang/status/2007198916073136152?s=20
本文由主机测评网于2026-03-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260331102.html