针对大模型在处理长文本时遇到的挑战,Transformer架构的核心贡献者之一Llion Jones领导的研究团队推出了创新技术DroPE。
这一技术无需经过昂贵且耗时的长上下文训练,便能实现无缝的零样本上下文扩展。
更令人瞩目的是,使用DroPE重新校准模型所需的预训练预算不超过1%。
这项技术因其独特的“丢弃”位置嵌入方法而被网友戏称为“NoRoPE”。
DroPE的核心思想在于,它视位置嵌入为临时性的训练工具。
在Transformer模型中,自注意力机制虽能令模型在读到某个词时关联到其它词,但这一机制在并行计算时会丢失文本序列的原始顺序。
例如,“猫抓老鼠”与“老鼠抓猫”在计算上等同,这导致模型难以区分谁应在前。
为了解决这个问题,研究人员引入了位置嵌入,以辅助模型建立对文本顺序的感知。
当前流行的RoPE(旋转位置编码)方法,虽然能助模型快速建立对语序的感知,但在处理长序列时存在缺陷,高频维度会因旋转角度快速饱和而失效,低频维度则因变化过慢同样无法准确表征位置信息。
而DroPE正是针对这一问题而诞生的。
它视RoPE为临时训练工具,在预训练阶段借助RoPE确保训练稳定性和效率,为模型提供可学习的顺序感。
在推理阶段,则大胆丢弃位置嵌入,并通过简短的重新校准,成功解锁了模型的长上下文外推能力,实现了零样本扩展。
这样,即使未针对长文本进行额外训练,模型也能处理更长的序列。
研究团队在多个模型上进行了实验验证,包括从零开始训练的5M参数模型、SmolLM家族模型(360M/1.7B)以及7B参数的Llama2-7B等。
在LongBench基准测试中,DroPE将基础SmolLM的平均得分提高了十倍以上。
在NIAH任务评估中,DroPE模型的召回率高达74.92%,远超传统的RoPE缩放方法。
提出DroPE技术的团队来自Llion Jones和David Ha创立的Sakana AI。
Sakana AI不仅获得了英伟达的投资,还推出了首个“出道”即携带十篇完整学术论文的AI科学家The AI Scientist。
近日,Sakana还与MIT研究团队共同提出了数字红皇后(DRQ)算法,利用大语言模型在经典编程游戏《Core War》中实现对抗性程序进化。
新程序需击败所有前代程序以模拟红皇后动态。
实验表明,经多轮迭代后生成的“战士”代码不仅对人类设计的程序表现出更强的通用性,还出现了表型趋同、基因型多样的“趋同进化”现象,且能减少循环相克问题。
这项研究或许能为网络安全、药物设计等需要相互抗衡的领域提供新的参考。
代码地址 参考链接本文由主机测评网于2026-06-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260646841.html