当前位置：首页 > 科技资讯 > 正文

苹果AI新突破：Mamba+工具，Agent场景效率超Transformer

通常认为苹果AI发展慢半拍，然而最新研究却直接在Transformer的弱点上动手。

「Mamba+工具」组合，在Agent场景下表现尤为出色！

苹果AI新突破：Mamba+工具，Agent场景效率超Transformer Mamba Transformer Agent场景效率提升第1张

在最新论文《To Infinity and Beyond》中，研究团队发现：

在长任务、多交互的Agent式任务中，基于SSM架构（状态空间模型）的模型，比如Mamba，在效率与泛化能力上，展现出超越Transformer的潜力。

苹果AI新突破：Mamba+工具，Agent场景效率超Transformer Mamba Transformer Agent场景效率提升第2张

Mamba团队表示：

苹果AI新突破：Mamba+工具，Agent场景效率超Transformer Mamba Transformer Agent场景效率提升第3张

那么，Mamba如何超越Transformer呢？

Transformer的局限

首先，Transformer存在“富贵病”。

尽管Transformer通过自注意力机制能够同时关注输入序列中所有词语的关联，但在处理长序列时，其计算成本高昂，随着序列长度的增加，计算量呈平方级增长。

例如，处理1000个词需要建立100万次词对关系；对于上万词的文档，计算量更是达到亿级，这对普通GPU来说是个不小的挑战。

苹果AI新突破：Mamba+工具，Agent场景效率超Transformer Mamba Transformer Agent场景效率提升第4张

高计算成本还引发了一系列问题：

相比之下，Mamba采用了更轻量化的设计思路。

作为状态空间模型（SSM）的一种，Mamba不依赖全局注意力机制，而是通过持续更新的内部状态来理解输入信息。

这种机制带来了三项显著优势：

例如处理1000个词仅需对应数量级的计算，远低于Transformer的消耗；

能够边接收输入边进行计算，无需等待完整序列加载完毕；

不会随序列长度增加而显著上升，在效率方面表现突出。

苹果AI新突破：Mamba+工具，Agent场景效率超Transformer Mamba Transformer Agent场景效率提升第5张

然而，Mamba也有局限：内部状态存储容量有限，处理超长序列时，早期信息易被后续输入覆盖。针对这一问题，苹果团队提出了新方案——通过引入外部工具扩展模型的信息处理能力。

这些工具可以在任务执行过程中提供辅助，相当于给模型提供了可动态调用的外部存储和交互接口。

苹果AI新突破：Mamba+工具，Agent场景效率超Transformer Mamba Transformer Agent场景效率提升第6张

引入工具后，Mamba的性能显著提升：

在多项加法任务中，配备指针工具的Mamba展现出色泛化能力，经过5位数加法训练后，能稳定处理千位数的计算，准确率接近100%，而Transformer在处理两位数时已出现明显误差；

苹果AI新突破：Mamba+工具，Agent场景效率超Transformer Mamba Transformer Agent场景效率提升第7张

由此可见，虽然Transformer聪明但效率不高，遇到需要反复调整的Agent式任务显得笨重；而Mamba反应快但记性差，但结合外部工具后效率显著提升。因此，「Mamba+工具」的组合在Agent场景下有望超越Transformer。