当前位置:首页 > 科技资讯 > 正文

苹果AI新突破:Mamba+工具,Agent场景效率超Transformer

通常认为苹果AI发展慢半拍,然而最新研究却直接在Transformer的弱点上动手。

「Mamba+工具」组合,在Agent场景下表现尤为出色!

苹果AI新突破:Mamba+工具,Agent场景效率超Transformer Mamba Transformer Agent场景 效率提升 第1张

在最新论文《To Infinity and Beyond》中,研究团队发现:

在长任务、多交互的Agent式任务中,基于SSM架构(状态空间模型)的模型,比如Mamba,在效率与泛化能力上,展现出超越Transformer的潜力。

苹果AI新突破:Mamba+工具,Agent场景效率超Transformer Mamba Transformer Agent场景 效率提升 第2张

Mamba团队表示:

苹果AI新突破:Mamba+工具,Agent场景效率超Transformer Mamba Transformer Agent场景 效率提升 第3张

那么,Mamba如何超越Transformer呢?

Transformer的局限

首先,Transformer存在“富贵病”。

尽管Transformer通过自注意力机制能够同时关注输入序列中所有词语的关联,但在处理长序列时,其计算成本高昂,随着序列长度的增加,计算量呈平方级增长。

例如,处理1000个词需要建立100万次词对关系;对于上万词的文档,计算量更是达到亿级,这对普通GPU来说是个不小的挑战。

苹果AI新突破:Mamba+工具,Agent场景效率超Transformer Mamba Transformer Agent场景 效率提升 第4张

高计算成本还引发了一系列问题:

  • 处理延迟显著增加,特别是在长序列任务中;
  • 在Agent类任务中表现欠佳,因为这类任务需要动态决策和迭代优化能力,而Transformer在每一步操作中都需重新计算全局注意力,导致整体效率偏低。

相比之下,Mamba采用了更轻量化的设计思路。

「Mamba+工具」更高效

作为状态空间模型(SSM)的一种,Mamba不依赖全局注意力机制,而是通过持续更新的内部状态来理解输入信息。

这种机制带来了三项显著优势:

  • 计算量随序列长度呈线性增长

例如处理1000个词仅需对应数量级的计算,远低于Transformer的消耗;

  • 支持流式处理

能够边接收输入边进行计算,无需等待完整序列加载完毕;

  • 内存占用保持稳定

不会随序列长度增加而显著上升,在效率方面表现突出。

苹果AI新突破:Mamba+工具,Agent场景效率超Transformer Mamba Transformer Agent场景 效率提升 第5张

然而,Mamba也有局限:内部状态存储容量有限,处理超长序列时,早期信息易被后续输入覆盖。针对这一问题,苹果团队提出了新方案——通过引入外部工具扩展模型的信息处理能力。

这些工具可以在任务执行过程中提供辅助,相当于给模型提供了可动态调用的外部存储和交互接口。

苹果AI新突破:Mamba+工具,Agent场景效率超Transformer Mamba Transformer Agent场景 效率提升 第6张

引入工具后,Mamba的性能显著提升:

    在多项加法任务中,配备指针工具的Mamba展现出色泛化能力,经过5位数加法训练后,能稳定处理千位数的计算,准确率接近100%,而Transformer在处理两位数时已出现明显误差;
  • 在代码调试任务中,模拟交互式调试流程的Mamba面对复杂度高于训练集的代码库,其正确率显著高于Transformer;
  • 在逻辑推理及汉诺塔等需要分步规划的任务中,结合工具的Mamba能够应对更复杂的问题场景,而Transformer则显得力不从心。

苹果AI新突破:Mamba+工具,Agent场景效率超Transformer Mamba Transformer Agent场景 效率提升 第7张

由此可见,虽然Transformer聪明但效率不高,遇到需要反复调整的Agent式任务显得笨重;而Mamba反应快但记性差,但结合外部工具后效率显著提升。因此,「Mamba+工具」的组合在Agent场景下有望超越Transformer。

论文地址

https://arxiv.org/pdf/...

参考链接