在提升大模型长文本处理能力的赛道上,英伟达(NVIDIA)作为全球AI开源技术的领军者,近期联手斯坦福大学、UC伯克利、加州大学圣地亚哥分校及Astera研究所,推出了突破性的TTT-E2E技术方案。
该方法在处理128K超长上下文时,推理速度比传统的全注意力(Full Attention)模型快2.7倍;而在应对2M超长文本场景时,提速更是达到了惊人的35倍,且模型性能保持极高水准。
相比于此前引起广泛讨论的DeepSeek条件记忆模块(Engram),TTT-E2E在技术路径上另辟蹊径。DeepSeek的方案侧重于静态的“索引式”学习,而英伟达则采用了更具前瞻性的动态上下文压缩技术。
其核心逻辑在于:模型在推理过程中通过实时学习,将文本的关键逻辑与细节动态地压缩进自身的权重参数中,使模型在测试阶段依然能维持一种“在线进化”的学习状态。
这种机制巧妙地规避了额外缓存(KV Cache)带来的内存负担,同时能够更加精准地捕捉长文本中的深层逻辑关系。
TTT-E2E并非依赖推倒重建的架构,而是基于带有滑动窗口注意力的标准Transformer模型,具备极佳的工程部署友好性。
该方案的本质是将长文本建模从复杂的架构设计问题,转化为了一项“持续学习”任务。
在模型推理阶段,每当系统读取一段新文本,都会通过梯度下降技术即时更新自身参数。这种“读一段、学一段”的模式,将海量信息动态存储于权重之中,彻底摆脱了对冗余数据的依赖。
在训练层面,研发团队引入了元学习(Meta-learning)机制为模型进行预初始化。通过模拟测试环境下的持续学习模式,优化模型的初始参数,确保其在推理现场能以最快速度完成对新上下文的吸收与适配。
为了兼顾效率、性能与模型稳定性,TTT-E2E还设计了三大优化策略:
首先是“迷你批处理+滑动窗口”策略,将训练数据细化分批,配合8K大小的窗口,既防止了单Token梯度爆炸,又提升了计算并行度。其次是精准更新策略,模型仅对最后1/4的MLP层进行更新,冻结其他核心层,极大降低了计算开销。最后是独特的“双MLP设计”,静态MLP负责保留预训练的通用知识,动态MLP负责捕捉当前文本的新鲜信息,完美解决了AI模型“学新忘旧”的顽疾。
实验数据显示,TTT-E2E的表现堪称惊艳。
在3B参数量级的测试中,TTT-E2E在128K上下文下的Loss表现不仅优于全注意力模型,更是在Mamba 2、Gated DeltaNet等模型性能普遍下滑的场景中逆势上扬。
在推理效率上,它的延迟与上下文长度解耦,表现出类似RNN的恒定响应速度。在H100顯卡上处理128K文本时,其处理效率比传统模型高出2.7倍。
在长文本生成的任务评估中,搭载TTT-E2E的Qwen-8B模型展现了极为稳定的文本质量,其损失函数值始终低于传统竞争对手。
虽然TTT-E2E在处理海量信息时优势巨大,但在“大海捞针”等极致细节召回任务中,受限于记忆压缩的特性,其表现暂逊于无损存储的全注意力模型。此外,训练阶段的元学习对计算资源的要求也相对更高。
目前,该项研究的代码与论文已完全开源。项目负责人由斯坦福大学博士后研究员Yu Sun担任,他自2019年起便深耕“测试时训练”这一领域,此次推出的TTT-E2E正是其多年心血的集大成之作。
论文地址:https://arxiv.org/abs/2512.23675
代码仓库:https://github.com/test-time-training/e2e
本文由主机测评网于2026-03-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260332146.html