当前位置:首页 > 科技资讯 > 正文

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力

Transformer作为当今人工智能领域的核心基石,其架构已到了亟需革新的关键时刻。

尽管它在诸多任务中表现卓越,但面对复杂数学问题或多步逻辑推理时,往往会出现逻辑混乱或错误输出。

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力 Transformer  Attention机制 Nexus 高阶推理 第1张

问题的根源何在?答案指向Transformer的核心组件——Attention机制。

传统Attention机制本质上是基于配对比较的:每个词仅与另一个词直接关联,通过注意力权重实现交互。

这种设计虽擅长捕捉长程依赖,但在建模多跳、多点间的复杂逻辑关系时却显得捉襟见肘。

例如,它能理解“A认识B”的直接关系,但对于“张三通过李四认识了王五”这类间接、多跳的关系,其推理深度明显不足,能力天花板迅速显现。

如今,这一局限被华为诺亚方舟实验室的创新突破所改变!

该团队近日提出了一种全新架构,名为Nexus,即高阶注意力机制(Higher-Order Attention Mechanism)。

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力 Transformer  Attention机制 Nexus 高阶推理 第2张

Nexus直击Attention机制的核心痛点,通过引入高阶注意力,有效建模多跳、多点之间的复杂关联。

实验结果显示,其效果令人瞩目:只需将模型架构切换为Nexus,在数学和科学等复杂推理任务上,性能即可实现显著提升,且无需增加任何参数。

这一设计巧妙而高效,接下来让我们深入剖析Nexus的精妙之处。

高阶注意力机制带来的架构革新

要理解高阶注意力的意义,需先回顾传统自注意力机制的根本缺陷。

标准自注意力机制通过线性变换WQ、WK、WV将输入序列X转换为Query(Q)、Key(K)、Value(V),再经softmax计算注意力权重:

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力 Transformer  Attention机制 Nexus 高阶推理 第3张

这里存在一个关键问题:Q和K均是静态的、与上下文无关的线性投影。

每个token的Query向量仅取决于自身,无法感知其他token的存在,导致注意力权重只能反映两两之间的直接关系。

革新之一:动态生成Q和K

华为诺亚方舟实验室的首个创新在于:Nexus使Q和K的生成过程本身也成为一个注意力操作。

换言之,token在计算最终Q和K前,会先进行一轮“预推理”,这是一个嵌套的自注意力机制。

通过内部循环,token从全局上下文中聚合信息,形成更具上下文感知能力的表示,再用于生成Q和K。

这类似于在问答之前,每个token都进行了深度思考,充分吸收序列环境信息,从而使Q和K摆脱线性投影的僵硬,具备动态捕捉复杂关系的能力。

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力 Transformer  Attention机制 Nexus 高阶推理 第4张

革新之二:递归框架实现多跳推理

Nexus架构的精髓还在于其递归框架。

内部注意力循环可递归嵌套:若一层Attention视为一阶关系,则将其输出作为下一层输入,可构建二阶乃至更高阶关系。

在Nexus中,这种递归嵌套被集成于单层结构,形成层次化推理链。

论文将过程递归化,定义第m阶注意力为:

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力 Transformer  Attention机制 Nexus 高阶推理 第5张

其中m=1为标准注意力;m=2表示Q和K由内层注意力生成;m=3则对应更高阶推理。这天然支持多跳推理链,如同解数学题时先理解变量、再思考公式、最后验证逻辑的逐步过程。

革新之三:参数零增加的权重共享

复杂架构常伴随计算开销和参数增长,但Nexus通过精巧的权重共享策略规避了这些问题。

具体而言,无论内外层注意力模块,都复用同一组投影权重WQ、WK、WV。这意味着计算路径更复杂,但参数量与原始Transformer完全一致。

这一设计基于假设:递归各层中,将token投影为Query或Key的语义变换方式相似。实验证实该假设成立。

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力 Transformer  Attention机制 Nexus 高阶推理 第6张

在Pythia-70M的消融实验中,权重共享的Nexus-QK-Shared版本平均准确率仍比基线提升近1个百分点,参数量无任何增加,成为高效的表达密度提升器。

Nexus架构实战效果显著

Nexus的效果如何?论文从零训练小模型和改造现有大模型两个维度验证。

小模型性能全面提升

团队在Pythia系列上从头训练Nexus,并在六个推理数据集评估:ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。

结果一致显示:Nexus在所有规模上均优于原始Transformer,尤其在多步推理或科学常识任务中提升明显。

例如:在SciQ上,70M模型准确率从61.5%升至68.5%,提升7个百分点;在PiQA上,1B模型从62.5%提升至63.6%。

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力 Transformer  Attention机制 Nexus 高阶推理 第7张

这表明Nexus擅长处理非表面模式匹配问题,真正增强了推理能力。

大模型即插即用升级

对于更大模型,Nexus展现出即插即用优势。团队将Qwen2.5的1.5B和7B版本的标准注意力层替换为Nexus,仅进行SFT微调,未改动预训练权重。

结果在三个高难度数学推理基准上均实现稳定提升:Qwen2.5-1.5B在MATH-500上准确率从78.6%升至80.1%;Qwen2.5-7B在AIME24上从45.2%升至47.5%。

华为诺亚方舟实验室Nexus架构:高阶注意力机制重塑Transformer推理能力 Transformer  Attention机制 Nexus 高阶推理 第8张

AIME24的提升尤为关键,因其要求严格的多步逻辑推导。Nexus的改进证实了其在内部构建更连贯推理链的能力。

由此可见,Nexus不仅是新训练范式,更是架构升级套件,无需重训大模型,仅微调阶段替换注意力层即可解锁更强推理。

推理能力内生于架构设计

尽管Nexus当前聚焦语言模型,其思想具有普适性。高阶关系建模在视觉、图神经网络和多模态任务中同样重要。

华为诺亚团队表示,下一步将探索Nexus在视觉Transformer和多模态大模型中的应用,并优化计算效率。

Transformer的智商天花板或许不在参数量,而在于注意力机制的表达能力。Nexus以优雅高效的方式为核心模块注入高阶推理能力,不依赖堆料或提示工程,而是从架构底层重塑模型思考方式。

这提醒我们:聪明的架构设计有时比规模扩张更为关键。

论文地址:

https://arxiv.org/abs/2512.03377