针对大模型在处理超长文本时的技术瓶颈,由Transformer架构核心贡献者Llion Jones领衔的研究团队Sakana AI,正式开源了一项名为DroPE的突破性技术。
该技术的核心优势在于:无需进行昂贵的长上下文专项微调,即可实现无缝的零样本上下文外推;更令人惊叹的是,利用DroPE对现有模型进行重新校准所需的计算预算,竟然不到原始预训练预算的1%。
这项技术在开发者社区被形象地戏称为“NoRoPE”(即‘告别旋转位置编码’)。
其原理直截了当:DroPE通过在推理阶段丢弃位置嵌入(Positional Embedding),巧妙地打破了模型对特定文本长度的依赖,从而实现了上下文的极限扩展。
要理解DroPE的精妙,首先需要审视位置嵌入的角色。
Transformer架构的核心是自注意力机制(Self-Attention),它赋予了模型关联上下文的能力。然而,这种机制本质上是“排列不变”的,无法识别词序。如果没有位置信息,“我爱吃肉”和“肉爱吃我”在模型眼中是完全等价的。
为了引入语序,研究界普遍采用了RoPE(旋转位置编码)。它像一个精密的指南针,帮助模型在预训练时建立空间感。但在长序列推理中,RoPE的缺陷显露无遗:高频维度易饱和导致失效,低频维度变化过慢导致定位模糊,这限制了模型处理更长文本的能力。
DroPE的创新之处在于,它将RoPE视为一种“临时的训练脚手架”。
在预训练阶段,模型依然依靠RoPE来快速习得语言的逻辑顺序和结构稳定性。而在进入推理环节时,DroPE会大胆地移除这些位置嵌入,仅在原始上下文长度内进行极短的时间校准,从而激发出模型天生的长文本处理潜力。
实验数据有力地证明了这一方案的有效性。在LongBench基准测试中,基于DroPE处理的SmolLM模型平均得分飙升了10倍以上。在极具挑战性的“大海捞针”(NIAH)测试中,其召回率高达74.92%,表现远超传统的插值缩放法。
即使在主流的Llama2-7B模型上,仅通过0.5%的计算量进行重校准,DroPE在长文问答与核心摘要任务中依然展现出了顶级的性能表现。
DroPE背后的Sakana AI,由Transformer论文作者Llion Jones与前谷歌资深科学家David Ha联手创立,早已成为业内关注的焦点。
这家坐落于东京的初创公司,不仅获得了英伟达等巨头的青睐,此前还因发布了能自主撰写论文的“AI Scientist”而名声大噪。
近期,Sakana AI还与MIT合作推出了数字红皇后(Digital Red Queen)算法。该算法通过大模型在经典编程游戏《Core War》中进行自我演化与对抗,模拟生物界的“红皇后假说”。
这种“博弈进化”机制产生的代码,在网络安全防御和药物分子筛选等高对抗性领域,展现出了巨大的应用潜力和研究价值。
DroPE论文地址:https://arxiv.org/abs/2512.12167
代码地址:https://github.com/SakanaAI/DroPE
本文由主机测评网于2026-03-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260332057.html