当前位置：首页 > 科技资讯 > 正文

DroPE技术：解锁大模型长文本处理新纪元

主机测评网
科技资讯
2026-06-11
982

针对大模型在处理长文本时遇到的挑战，Transformer架构的核心贡献者之一Llion Jones领导的研究团队推出了创新技术DroPE。

这一技术无需经过昂贵且耗时的长上下文训练，便能实现无缝的零样本上下文扩展。

更令人瞩目的是，使用DroPE重新校准模型所需的预训练预算不超过1%。

DroPE技术：解锁大模型长文本处理新纪元 DroPE 位置嵌入长文本处理 Transformer 第1张

这项技术因其独特的“丢弃”位置嵌入方法而被网友戏称为“NoRoPE”。

DroPE的核心思想在于，它视位置嵌入为临时性的训练工具。

位置嵌入：临时盟友

在Transformer模型中，自注意力机制虽能令模型在读到某个词时关联到其它词，但这一机制在并行计算时会丢失文本序列的原始顺序。

例如，“猫抓老鼠”与“老鼠抓猫”在计算上等同，这导致模型难以区分谁应在前。

DroPE技术：解锁大模型长文本处理新纪元 DroPE 位置嵌入长文本处理 Transformer 第2张

为了解决这个问题，研究人员引入了位置嵌入，以辅助模型建立对文本顺序的感知。

当前流行的RoPE（旋转位置编码）方法，虽然能助模型快速建立对语序的感知，但在处理长序列时存在缺陷，高频维度会因旋转角度快速饱和而失效，低频维度则因变化过慢同样无法准确表征位置信息。

DroPE技术：解锁大模型长文本处理新纪元 DroPE 位置嵌入长文本处理 Transformer 第3张

而DroPE正是针对这一问题而诞生的。

它视RoPE为临时训练工具，在预训练阶段借助RoPE确保训练稳定性和效率，为模型提供可学习的顺序感。

在推理阶段，则大胆丢弃位置嵌入，并通过简短的重新校准，成功解锁了模型的长上下文外推能力，实现了零样本扩展。

这样，即使未针对长文本进行额外训练，模型也能处理更长的序列。

DroPE技术：解锁大模型长文本处理新纪元 DroPE 位置嵌入长文本处理 Transformer 第4张

研究团队在多个模型上进行了实验验证，包括从零开始训练的5M参数模型、SmolLM家族模型（360M/1.7B）以及7B参数的Llama2-7B等。

在LongBench基准测试中，DroPE将基础SmolLM的平均得分提高了十倍以上。

在NIAH任务评估中，DroPE模型的召回率高达74.92%，远超传统的RoPE缩放方法。

DroPE技术：解锁大模型长文本处理新纪元 DroPE 位置嵌入长文本处理 Transformer 第5张

Sakana AI

提出DroPE技术的团队来自Llion Jones和David Ha创立的Sakana AI。

DroPE技术：解锁大模型长文本处理新纪元 DroPE 位置嵌入长文本处理 Transformer 第6张

Sakana AI不仅获得了英伟达的投资，还推出了首个“出道”即携带十篇完整学术论文的AI科学家The AI Scientist。

DroPE技术：解锁大模型长文本处理新纪元 DroPE 位置嵌入长文本处理 Transformer 第7张

近日，Sakana还与MIT研究团队共同提出了数字红皇后（DRQ）算法，利用大语言模型在经典编程游戏《Core War》中实现对抗性程序进化。

新程序需击败所有前代程序以模拟红皇后动态。

DroPE技术：解锁大模型长文本处理新纪元 DroPE 位置嵌入长文本处理 Transformer 第8张

实验表明，经多轮迭代后生成的“战士”代码不仅对人类设计的程序表现出更强的通用性，还出现了表型趋同、基因型多样的“趋同进化”现象，且能减少循环相克问题。

这项研究或许能为网络安全、药物设计等需要相互抗衡的领域提供新的参考。

DroPE论文地址

代码地址参考链接

免费服务器云服务器性价比vps

本文由主机测评网于2026-06-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260646841.html

DroPE技术：解锁大模型长文本处理新纪元

位置嵌入：临时盟友

Sakana AI

科学软件的执行现实：Deploy-Master的突破

3D打印：从极客玩具到大众创意工具的飞跃

DroPE技术：解锁大模型长文本处理新纪元

位置嵌入：临时盟友

Sakana AI

科学软件的执行现实：Deploy-Master的突破

3D打印：从极客玩具到大众创意工具的飞跃

相关文章