当前位置:首页 > 科技资讯 > 正文

DroPE技术:解锁大模型长文本处理新纪元

针对大模型在处理长文本时遇到的挑战,Transformer架构的核心贡献者之一Llion Jones领导的研究团队推出了创新技术DroPE

这一技术无需经过昂贵且耗时的长上下文训练,便能实现无缝的零样本上下文扩展。

更令人瞩目的是,使用DroPE重新校准模型所需的预训练预算不超过1%。

DroPE技术:解锁大模型长文本处理新纪元 DroPE 位置嵌入 长文本处理 Transformer 第1张

这项技术因其独特的“丢弃”位置嵌入方法而被网友戏称为“NoRoPE”。

DroPE的核心思想在于,它视位置嵌入为临时性的训练工具。

位置嵌入:临时盟友

在Transformer模型中,自注意力机制虽能令模型在读到某个词时关联到其它词,但这一机制在并行计算时会丢失文本序列的原始顺序。

例如,“猫抓老鼠”与“老鼠抓猫”在计算上等同,这导致模型难以区分谁应在前。

DroPE技术:解锁大模型长文本处理新纪元 DroPE 位置嵌入 长文本处理 Transformer 第2张

为了解决这个问题,研究人员引入了位置嵌入,以辅助模型建立对文本顺序的感知。

当前流行的RoPE(旋转位置编码)方法,虽然能助模型快速建立对语序的感知,但在处理长序列时存在缺陷,高频维度会因旋转角度快速饱和而失效,低频维度则因变化过慢同样无法准确表征位置信息。

DroPE技术:解锁大模型长文本处理新纪元 DroPE 位置嵌入 长文本处理 Transformer 第3张

而DroPE正是针对这一问题而诞生的。

它视RoPE为临时训练工具,在预训练阶段借助RoPE确保训练稳定性和效率,为模型提供可学习的顺序感。

在推理阶段,则大胆丢弃位置嵌入,并通过简短的重新校准,成功解锁了模型的长上下文外推能力,实现了零样本扩展。

这样,即使未针对长文本进行额外训练,模型也能处理更长的序列。

DroPE技术:解锁大模型长文本处理新纪元 DroPE 位置嵌入 长文本处理 Transformer 第4张

研究团队在多个模型上进行了实验验证,包括从零开始训练的5M参数模型、SmolLM家族模型(360M/1.7B)以及7B参数的Llama2-7B等。

在LongBench基准测试中,DroPE将基础SmolLM的平均得分提高了十倍以上。

在NIAH任务评估中,DroPE模型的召回率高达74.92%,远超传统的RoPE缩放方法。

DroPE技术:解锁大模型长文本处理新纪元 DroPE 位置嵌入 长文本处理 Transformer 第5张

Sakana AI

提出DroPE技术的团队来自Llion Jones和David Ha创立的Sakana AI。

DroPE技术:解锁大模型长文本处理新纪元 DroPE 位置嵌入 长文本处理 Transformer 第6张

Sakana AI不仅获得了英伟达的投资,还推出了首个“出道”即携带十篇完整学术论文的AI科学家The AI Scientist。

DroPE技术:解锁大模型长文本处理新纪元 DroPE 位置嵌入 长文本处理 Transformer 第7张

近日,Sakana还与MIT研究团队共同提出了数字红皇后(DRQ)算法,利用大语言模型在经典编程游戏《Core War》中实现对抗性程序进化。

新程序需击败所有前代程序以模拟红皇后动态。

DroPE技术:解锁大模型长文本处理新纪元 DroPE 位置嵌入 长文本处理 Transformer 第8张

实验表明,经多轮迭代后生成的“战士”代码不仅对人类设计的程序表现出更强的通用性,还出现了表型趋同、基因型多样的“趋同进化”现象,且能减少循环相克问题。

这项研究或许能为网络安全、药物设计等需要相互抗衡的领域提供新的参考。

DroPE论文地址

代码地址 参考链接