通常认为苹果AI发展慢半拍,然而最新研究却直接在Transformer的弱点上动手。
「Mamba+工具」组合,在Agent场景下表现尤为出色!
在最新论文《To Infinity and Beyond》中,研究团队发现:
在长任务、多交互的Agent式任务中,基于SSM架构(状态空间模型)的模型,比如Mamba,在效率与泛化能力上,展现出超越Transformer的潜力。
Mamba团队表示:
那么,Mamba如何超越Transformer呢?
首先,Transformer存在“富贵病”。
尽管Transformer通过自注意力机制能够同时关注输入序列中所有词语的关联,但在处理长序列时,其计算成本高昂,随着序列长度的增加,计算量呈平方级增长。
例如,处理1000个词需要建立100万次词对关系;对于上万词的文档,计算量更是达到亿级,这对普通GPU来说是个不小的挑战。
高计算成本还引发了一系列问题:
相比之下,Mamba采用了更轻量化的设计思路。
作为状态空间模型(SSM)的一种,Mamba不依赖全局注意力机制,而是通过持续更新的内部状态来理解输入信息。
这种机制带来了三项显著优势:
例如处理1000个词仅需对应数量级的计算,远低于Transformer的消耗;
能够边接收输入边进行计算,无需等待完整序列加载完毕;
不会随序列长度增加而显著上升,在效率方面表现突出。
然而,Mamba也有局限:内部状态存储容量有限,处理超长序列时,早期信息易被后续输入覆盖。针对这一问题,苹果团队提出了新方案——通过引入外部工具扩展模型的信息处理能力。
这些工具可以在任务执行过程中提供辅助,相当于给模型提供了可动态调用的外部存储和交互接口。
引入工具后,Mamba的性能显著提升:
由此可见,虽然Transformer聪明但效率不高,遇到需要反复调整的Agent式任务显得笨重;而Mamba反应快但记性差,但结合外部工具后效率显著提升。因此,「Mamba+工具」的组合在Agent场景下有望超越Transformer。