Transformer作为当今人工智能领域的核心基石,其架构已到了亟需革新的关键时刻。
尽管它在诸多任务中表现卓越,但面对复杂数学问题或多步逻辑推理时,往往会出现逻辑混乱或错误输出。
问题的根源何在?答案指向Transformer的核心组件——Attention机制。
传统Attention机制本质上是基于配对比较的:每个词仅与另一个词直接关联,通过注意力权重实现交互。
这种设计虽擅长捕捉长程依赖,但在建模多跳、多点间的复杂逻辑关系时却显得捉襟见肘。
例如,它能理解“A认识B”的直接关系,但对于“张三通过李四认识了王五”这类间接、多跳的关系,其推理深度明显不足,能力天花板迅速显现。
如今,这一局限被华为诺亚方舟实验室的创新突破所改变!
该团队近日提出了一种全新架构,名为Nexus,即高阶注意力机制(Higher-Order Attention Mechanism)。
Nexus直击Attention机制的核心痛点,通过引入高阶注意力,有效建模多跳、多点之间的复杂关联。
实验结果显示,其效果令人瞩目:只需将模型架构切换为Nexus,在数学和科学等复杂推理任务上,性能即可实现显著提升,且无需增加任何参数。
这一设计巧妙而高效,接下来让我们深入剖析Nexus的精妙之处。
要理解高阶注意力的意义,需先回顾传统自注意力机制的根本缺陷。
标准自注意力机制通过线性变换WQ、WK、WV将输入序列X转换为Query(Q)、Key(K)、Value(V),再经softmax计算注意力权重:
这里存在一个关键问题:Q和K均是静态的、与上下文无关的线性投影。
每个token的Query向量仅取决于自身,无法感知其他token的存在,导致注意力权重只能反映两两之间的直接关系。
华为诺亚方舟实验室的首个创新在于:Nexus使Q和K的生成过程本身也成为一个注意力操作。
换言之,token在计算最终Q和K前,会先进行一轮“预推理”,这是一个嵌套的自注意力机制。
通过内部循环,token从全局上下文中聚合信息,形成更具上下文感知能力的表示,再用于生成Q和K。
这类似于在问答之前,每个token都进行了深度思考,充分吸收序列环境信息,从而使Q和K摆脱线性投影的僵硬,具备动态捕捉复杂关系的能力。
Nexus架构的精髓还在于其递归框架。
内部注意力循环可递归嵌套:若一层Attention视为一阶关系,则将其输出作为下一层输入,可构建二阶乃至更高阶关系。
在Nexus中,这种递归嵌套被集成于单层结构,形成层次化推理链。
论文将过程递归化,定义第m阶注意力为:
其中m=1为标准注意力;m=2表示Q和K由内层注意力生成;m=3则对应更高阶推理。这天然支持多跳推理链,如同解数学题时先理解变量、再思考公式、最后验证逻辑的逐步过程。
复杂架构常伴随计算开销和参数增长,但Nexus通过精巧的权重共享策略规避了这些问题。
具体而言,无论内外层注意力模块,都复用同一组投影权重WQ、WK、WV。这意味着计算路径更复杂,但参数量与原始Transformer完全一致。
这一设计基于假设:递归各层中,将token投影为Query或Key的语义变换方式相似。实验证实该假设成立。
在Pythia-70M的消融实验中,权重共享的Nexus-QK-Shared版本平均准确率仍比基线提升近1个百分点,参数量无任何增加,成为高效的表达密度提升器。
Nexus的效果如何?论文从零训练小模型和改造现有大模型两个维度验证。
团队在Pythia系列上从头训练Nexus,并在六个推理数据集评估:ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。
结果一致显示:Nexus在所有规模上均优于原始Transformer,尤其在多步推理或科学常识任务中提升明显。
例如:在SciQ上,70M模型准确率从61.5%升至68.5%,提升7个百分点;在PiQA上,1B模型从62.5%提升至63.6%。
这表明Nexus擅长处理非表面模式匹配问题,真正增强了推理能力。
对于更大模型,Nexus展现出即插即用优势。团队将Qwen2.5的1.5B和7B版本的标准注意力层替换为Nexus,仅进行SFT微调,未改动预训练权重。
结果在三个高难度数学推理基准上均实现稳定提升:Qwen2.5-1.5B在MATH-500上准确率从78.6%升至80.1%;Qwen2.5-7B在AIME24上从45.2%升至47.5%。
AIME24的提升尤为关键,因其要求严格的多步逻辑推导。Nexus的改进证实了其在内部构建更连贯推理链的能力。
由此可见,Nexus不仅是新训练范式,更是架构升级套件,无需重训大模型,仅微调阶段替换注意力层即可解锁更强推理。
尽管Nexus当前聚焦语言模型,其思想具有普适性。高阶关系建模在视觉、图神经网络和多模态任务中同样重要。
华为诺亚团队表示,下一步将探索Nexus在视觉Transformer和多模态大模型中的应用,并优化计算效率。
Transformer的智商天花板或许不在参数量,而在于注意力机制的表达能力。Nexus以优雅高效的方式为核心模块注入高阶推理能力,不依赖堆料或提示工程,而是从架构底层重塑模型思考方式。
这提醒我们:聪明的架构设计有时比规模扩张更为关键。
https://arxiv.org/abs/2512.03377
本文由主机测评网于2026-02-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260222873.html