当前位置：首页 > 科技资讯 > 正文

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推

针对大模型在处理超长文本时的技术瓶颈，由Transformer架构核心贡献者Llion Jones领衔的研究团队Sakana AI，正式开源了一项名为DroPE的突破性技术。

该技术的核心优势在于：无需进行昂贵的长上下文专项微调，即可实现无缝的零样本上下文外推；更令人惊叹的是，利用DroPE对现有模型进行重新校准所需的计算预算，竟然不到原始预训练预算的1%。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第1张

这项技术在开发者社区被形象地戏称为“NoRoPE”（即‘告别旋转位置编码’）。

其原理直截了当：DroPE通过在推理阶段丢弃位置嵌入（Positional Embedding），巧妙地打破了模型对特定文本长度的依赖，从而实现了上下文的极限扩展。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第2张

重新定义位置嵌入：从“固定框架”到“临时脚手架”

要理解DroPE的精妙，首先需要审视位置嵌入的角色。

Transformer架构的核心是自注意力机制（Self-Attention），它赋予了模型关联上下文的能力。然而，这种机制本质上是“排列不变”的，无法识别词序。如果没有位置信息，“我爱吃肉”和“肉爱吃我”在模型眼中是完全等价的。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第3张

为了引入语序，研究界普遍采用了RoPE（旋转位置编码）。它像一个精密的指南针，帮助模型在预训练时建立空间感。但在长序列推理中，RoPE的缺陷显露无遗：高频维度易饱和导致失效，低频维度变化过慢导致定位模糊，这限制了模型处理更长文本的能力。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第4张

DroPE的创新之处在于，它将RoPE视为一种“临时的训练脚手架”。

在预训练阶段，模型依然依靠RoPE来快速习得语言的逻辑顺序和结构稳定性。而在进入推理环节时，DroPE会大胆地移除这些位置嵌入，仅在原始上下文长度内进行极短的时间校准，从而激发出模型天生的长文本处理潜力。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第5张

实验数据有力地证明了这一方案的有效性。在LongBench基准测试中，基于DroPE处理的SmolLM模型平均得分飙升了10倍以上。在极具挑战性的“大海捞针”（NIAH）测试中，其召回率高达74.92%，表现远超传统的插值缩放法。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第6张

即使在主流的Llama2-7B模型上，仅通过0.5%的计算量进行重校准，DroPE在长文问答与核心摘要任务中依然展现出了顶级的性能表现。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第7张

DroPE背后的Sakana AI，由Transformer论文作者Llion Jones与前谷歌资深科学家David Ha联手创立，早已成为业内关注的焦点。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第8张

这家坐落于东京的初创公司，不仅获得了英伟达等巨头的青睐，此前还因发布了能自主撰写论文的“AI Scientist”而名声大噪。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第9张

近期，Sakana AI还与MIT合作推出了数字红皇后（Digital Red Queen）算法。该算法通过大模型在经典编程游戏《Core War》中进行自我演化与对抗，模拟生物界的“红皇后假说”。

Transformer作者开源DroPE：丢弃位置编码，不到1%预算解锁大模型长文本外推 DroPE技术 Sakana AI 长上下文扩展零样本学习第10张

这种“博弈进化”机制产生的代码，在网络安全防御和药物分子筛选等高对抗性领域，展现出了巨大的应用潜力和研究价值。

DroPE论文地址：https://arxiv.org/abs/2512.12167

代码地址：https://github.com/SakanaAI/DroPE

本文由主机测评网于2026-03-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260332057.html