当前位置:首页 > 科技资讯 > 正文

离线智能:从云端到端侧的挑战与突破

在人工智能(AI)的浪潮中,过去两年,关于AI模型的故事几乎都在围绕两个版本展开:无所不能的云,和充满想象的端。曾经,一个被广泛描绘的行业蓝图是:随着轻量化模型能力的持续增强,AI摆脱云端束缚,在每个人的设备上实现永不离线的贴身智能,似乎只是一个时间问题。

然而,喧嚣过后,一个尴尬的现实摆在眼前:不论是近期爆火的AI玩具,还是备受瞩目的AI眼镜,其核心交互和智能依然牢牢地系于云端。即使是算力更强的手机和PC,真正实现了离线AI能力的,却依然凤毛麟角。

尽管技术演示里,端侧模型看起来无所不能,但最后说好的离线智能,怎么还是离不开网络?这背后的矛盾在于用户对即时响应和隐私保护的需求,与端侧设备有限的算力、功耗和内存之间的冲突。

在今年的世界人工智能大会(WAIC)上,一家名为RockAI的公司给出了自己的答案。他们正走在一条少有人走的路上,并找到了破局的钥匙。他们以“让每台设备都拥有专属智能”为使命,一头扎进底层技术,甚至大胆舍弃主流Transformer架构,硬是啃下了端侧部署这块被视为“不可能完成的任务”的硬骨头。

离线智能:从云端到端侧的挑战与突破 离线智能  端侧模型 云端模型 创新架构 第1张

他们推出的Yan 2.0 Preview仅30亿参数,已经能做到多模态,并在本地实现真正的“记忆”:模型可动态调整权重,长期保留并更新用户偏好。这项“不可能完成的任务”的成果也并未停留在实验室的演示阶段。量产订单已经从海内外市场发来,将技术实力迅速兑换为商业价值。

极客公园采访了RockAI的联合创始人邹佳思,与他们聊了聊RockAI背后的商业故事。

01

为什么我们还没有拥有永不下线的随身AI?

问:整个行业似乎都在为一个离线智能的未来而努力,苹果这样的巨头更是将此视为核心战略。可为什么从技术演示到消费者手中,这“最后一公里”却总是走不通?

邹佳思:大家都在谈离线智能、设备端的AI,但理想和现实之间,横着两座几乎无法逾越的大山:一座是算力,另一座是功耗。

大模型想在设备上运行,需要很高的算力配置。目前很多行业内的AI公司,虽然也有参数比较小的模型,但是仍然需要算力更高的芯片才能跑上去。

这就是最残酷的算力鸿沟:你的AI技术再先进,如果只能满足少数顶配设备应用,那么就失去了普惠AI的意义。

另一座大山则是功耗。这个问题在手机上体现得淋漓尽致。现实中,手机厂商只要尝试部署大模型,设备的发热就非常严重。

问:您刚才提到了,无论是算力还是功耗,很多问题的根源都指向了目前主流的Transformer架构。Transformer在云端证明了自己是当前最强的AI架构,为什么把它搬到端侧设备上,就水土不服了呢?

邹佳思:Transformer之所以强大,依赖于它革命性的注意力(Attention)机制。但问题恰恰也出在这里。手机芯片的设计更擅长高速、顺序地执行任务,而Transformer的全局握手任务每增加一个字,计算量就指数级暴增。

我们从一开始就关注到了这个问题。我们的结论是,保留Transformer强大的特征提取能力,但彻底拿掉那个消耗巨大的Attention机制,用一种全新的、更适合在“流水线”上运行的架构来替代它。

离线智能:从云端到端侧的挑战与突破 离线智能  端侧模型 云端模型 创新架构 第2张

问:这听起来非常复杂。只是为了在智能硬件上跑,就要重新设计一个架构。离线智能真的有这么必要吗?

邹佳思:我们认为非常有必要。它的必要性体现在几个无法被云端替代的价值上:绝对的隐私安全、极致的实时交互以及成本问题。

02

能实现离线智能的模型,应该长什么样?

问:为了实现离线智能,你们选择了最难的路——重新设计一辆“越野车”。那么这辆新车的“发动机”,也就是你们新架构的核心机制,究竟是什么?

邹佳思:我们的核心创新是抛弃高耗能的Attention机制,回退到更轻的“特征—抑制—激活”架构。通过分区激活把每次真正运算的参数量压到十分之一甚至更低。算力需求降到原来的五分之一以上,功耗降到十分之一。

离线智能:从云端到端侧的挑战与突破 离线智能  端侧模型 云端模型 创新架构 第3张

问:「分区激活」思路确实很巧妙。但人脑之所以能只激活一小部分,是因为它本身是一个近千亿参数的巨型模型。而我们现在的端侧模型只有区区几十亿参数。我们真的能指望一个小模型通过激活更小的一部分来完成更好的智能吗?

邹佳思:我们认为真正的智能不应该只是压缩,更应该是成长和学习。分区激活的意义不仅在于节能,更在于它为成长提供了可能性。

问:您提到了自主学习这个词。怎么理解Yan模型的自主学习?它和现在云端模型的个性化有什么不同吗?

邹佳思:我们的创新是第一次在端侧设备上实现反向传播这个学习过程。得益于分区激活的特性,当模型需要学习新知识时,它只需要激活极小的神经元分区进行低功耗的反向传播。

离线智能:从云端到端侧的挑战与突破 离线智能  端侧模型 云端模型 创新架构 第4张

问:我们刚才聊了很多技术上的不可能与可能。现在我们回到市场。当大部分声音还在追逐云端千亿模型时,你们的技术却在短时间内找到了真实的商业订单。从你们的视角看,当前市场上究竟是哪一类玩家对离线智能抱有最强烈的执念?他们背后的商业驱动力是什么?

邹佳思:目前我们接触了多个领域的客户。以PC、平板和机器人为当前最核心、已实现量产的战场。我们会更关注更广域的中低算力市场。

离线智能:从云端到端侧的挑战与突破 离线智能  端侧模型 云端模型 创新架构 第5张