当前位置：首页 > 科技资讯 > 正文

端侧AI竞速：从云端到终端的智能革命

主机测评网
科技资讯
2026-02-04
187

端侧AI竞速：从云端到终端的智能革命端侧人工智能算力架构 NPU芯片大模型部署第1张

2025年，谷歌推出“捕日计划”，OpenAI启动“星际之门”，全球AI产业全力投入以算力为核心的云端竞赛。与此同时，一场深刻的变革正在终端设备上悄然展开，端侧AI正成为技术演进的新焦点。

5月，OpenAI以65亿美元收购苹果前首席设计官Jony Ive创立的AI硬件公司io，计划于2026年底推出首款无屏幕AI硬件；11月，马斯克预言传统手机将在5-6年内消失，被仅作为“AI推理边缘节点”的设备取代；12月，字节跳动试水豆包AI手机，引发行业广泛关注。

大模型的战火，正从云端算力的“正面战场”，蔓延至亿万终端设备的“毛细血管”，一场关乎AI未来格局的端侧竞速正式拉开帷幕。

01. 计算技术史诗级演进，驱动算力霸主地位交接

计算技术的发展并非线性前进，而是由范式转换驱动：1945年，冯・诺依曼提出“存储程序”理论，为通用计算奠定基础；1946年ENIAC电子计算机诞生，开启通用计算时代，以CPU为核心解决了“计算有无”问题。

2006年，英伟达发布CUDA架构，将GPU从图形渲染推向通用计算，其并行计算能力较CPU提升100倍以上，标志着加速计算时代正式到来。2012年，基于CUDA平台训练的神经网络模型AlexNet将ImageNet图像识别错误率从26%降至15%，算力消耗较CPU方案降低90%，宣告深度学习时代开启。

2020年生成式AI的突破，将加速计算推向新高度——LLM（大语言模型）与VLM（视觉语言模型）的出现，创造了“认知级计算”需求。与传统任务不同，大模型计算对并行处理能力和海量数据吞吐有极致需求，对算力和带宽提出更高要求，特别是VLM模型需要同时处理视觉与语言数据，形成“视觉感知-语言理解-决策生成”闭环，加速云端AI芯片发展。

大模型快速迭代打破云端AI芯片垄断格局，催生“云端训练-端侧部署”协同生态：云端算力持续堆叠，模型向超大参数规模发展；端侧模型聚焦极致压缩，在有限算力下实现最佳性能。云端作为AI智能“大脑”，负责大模型训练、全局决策和知识管理；端侧作为AI智能“神经末梢”，承担主动感知、实施决策和用户交互等功能。

今天，云端算力已完成从以CPU为主的通用计算到GPU为核心的智能计算的历史性转变。根据国际TOP500组织数据，2019年TOP500超级计算机中近90%算力完全依赖CPU，到2025年这一数字已急剧下降到不足15%。六年时间便完成了Intel和英伟达算力霸主地位的交接。

02. 端侧即将成为人工智能发展的新战场

AI的终极价值不在于实验室参数，而在于对现实世界的改造能力和全社会技术采用率。云端模型部署的高延迟和高成本，使其难以适配工业、消费等端侧场景，“让小模型拥有大智慧”的模型蒸馏技术应运而生。该技术将千亿级模型压缩至百亿甚至十亿级，在保持较高性能的同时，大幅缩减模型尺寸和计算复杂度，使其能部署在AI PC、本地会议纪要一体机、AI手机、AI网关等端边侧场景。

根据弗若斯特沙利文预测，2029年全球端侧AI市场规模将增至1.2万亿元，复合年增长率高达39.6%。联想AI PC渗透率已达联想PC总出货量30%以上；智能会议设备Plaud年销量破百万；Meta AI眼镜发布两天内售罄，2026年将破千万台。端侧AI正成为科技巨头必争之地。

我国端侧AI发展有天然优势：一方面顶层设计高度重视，另一方面有巨大端侧市场和应用场景。根据弗若斯特沙利文预测，中国端侧AI市场2029年将实现3077亿元，复合年增长率高达39.9%。

“十五五”规划建议、《人工智能+行动实施指导意见》等政策文件明确提出，要全面实施“人工智能+”行动，抢占人工智能产业应用制高点，全方位赋能千行百业。锚定2030年“十五五”收官节点，通过五年攻坚，实现智能终端普及率超90%、产业规模突破10万亿元目标，为端侧AI规模化爆发注入强劲确定性动能。“量化指标”政策指引，让企业研发和市场推广有明确方向，推动端侧AI从“零散试点”走向“规模化落地”。

中国是全球最大消费电子、家电和汽车生产国，为端侧AI芯片和解决方案提供巨大市场需求。国内已形成全球最完整端侧AI产业链：上游有华为昇腾、地平线、瑞芯微、后摩智能等芯片厂商提供硬件支撑；中游有Deepseek、阿里、讯飞等企业提供算法模型；下游有荣耀、联想、小米等终端厂商负责产品落地，形成难以复制的生态优势。

政策支持与市场需求形成共振，将推动国内端侧AI市场规模快速增长，推动大模型从云端走向手机、PC、汽车、机器人等亿万终端设备。

03. 大模型下沉，与端侧算力实现双向奔赴

云端大模型已出现“杀手级应用”：ChatGPT最新披露周活跃用户达8亿、豆包、Deepseek月活也达1.72亿和1.45亿，而端侧大模型的Killer App尚在探索中。

这一差异核心在于：一方面，在端侧功耗、成本受限条件下，端侧算力芯片性能决定能跑端侧模型的物理基础；另一方面，模型量化、压缩能力迭代，决定模型软件上限。

云端CPU到GPU的霸权交替规律是否会延续到端侧？

让我们看两个底层逻辑：

1.AI主导计算在云端已经发生

如前所述，云端计算架构CPU:GPU从2019年9:1变为2025年1:9，2020年大模型出现加速这一计算范式革命。站在2025年末，端侧计算范式是否会延续云端以AI算力芯片为主导、CPU为辅助新格局？类似云端已发生的，端侧传统数据处理、检索、查询、推荐等以AI计算形式带来更优体验，用户将用脚投票。若将Deepseek模型装到PC或手机，Deepseek直接访问本地工作文件、手机相册视频、聊天记录等（因本地无隐私、延时问题），不仅能帮我们高效完成工作，聊天也会更深入有趣。

在云端，大模型彻底改变游戏规则，不断加速AI飞轮势不可挡，端侧复制云端故事只是工程问题。

2.数据中心传输数据有物理上限，端侧AI不是选择题

马斯克在Joe Rogan Podcast谈到，边缘节点处理本地推理并与服务器协作不是可选项，是唯一在架构上可行的前进路径。业界按运营级4K流媒体每路约25–50Mbps带宽需求设计。按较保守25 Mbps/用户和2023年997 Tbps海底光缆总带宽算，理论最大同时4K流用户约39,880,000（约4000万）。这用户量级远不能支撑目前ChatGPT用户体量，更不要提类似微信超级APP用户量级。完全由服务器端渲染和计算需要不切实际数据传输率，可能超出现有全球带宽容量，所以端侧AI感知和计算让互联网和云处理不现实。

综上，云端CPU与GPU霸权交替，本质是“效率与场景适配”对计算范式筛选。这两大底层逻辑在端侧同样成立——AI化体验用户诉求不可逆，数据传输物理上限不可破。因此，端侧计算架构变革非偶然，是技术演进与现实需求共同作用的必然结果。

端侧复制：模型与算力的共生进化

1.模型“瘦身”落地加速

MoE架构让大模型在保持性能同时实现“瘦身”，为端侧部署扫清架构障碍；蒸馏后模型在保持较高性能同时，大幅缩减模型尺寸和计算复杂度。华为CBQ量化算法将模型压缩至原体积1/7，性能保留99%；阿里逆向蒸馏技术使2B模型性能反超7B模型8.8%。模型压缩技术突破降低算力门槛，使其能部署在AI PC、AI手机、创新AI硬件等端侧场景。

2.端侧算力需求激增

随着VLM等多模态大模型广泛应用，要求同时处理视觉细节和文本逻辑，多模态数据处理复杂度远超纯文本数据，算力需求大幅攀升，如Qwen3 VL 8B需几十TOPS算力才能跑动。另外，智能体（agent）快速发展，需反复调用多个模型，推理算力将指数级增长。

3.端侧算力供给大幅跃迁

需求增长刺激算力供给，前大模型时代端侧芯片通常只有几TOPS算力，AI PC出现后Intel和高通芯片有几十TOPS算力。国产芯片里瑞芯微RK182X作为独立NPU算力20TOPS；后摩智能M50算力达160TOPS。端侧NPU算力首次超100TOPS，预计将继续向高算力、高带宽、低功耗方向演进。

04. 当前，端侧算力以“SOC+NPU协同发展”为主要格局

1.端侧SOC芯片：提供通用基础型解决方案

这类芯片以ARM CPU为核心，集成轻量级NPU，主打“性价比+通用性”。架构设计业界普遍采用“CPU+GPU+NPU+ISP”混合集成架构，适配1-10亿参数端侧小模型，主要应用在智能音箱、定制平板设备、智能门锁等端侧场景，这类设备对AI性能要求较低，注重成本控制。以瑞芯微RK3588为例，4个ARM A76大核，4个A55小核，6TOPS NPU，强大CPU核和小算力NPU组合。这是典型前大模型时代产品，以控制为主，附带少量AI能力处理以图像为主泛安防等场景。全志H88K、钜芯JX100、恒烁HS610等SOC AI能力相对瑞芯微更小。类比云端计算架构，当前端侧依然是CPU为主计算范式，只是端侧是ARM替代X86。

2.端侧NPU：提供极致性能解决方案

虽然GPU成云端AI计算核心，但其功耗劣势在端侧是明显短板，因此端侧AI计算NPU渐成主流。GPU存在形态分iGPU（集显）和dGPU（独显），NPU也分iNPU（集成加速卡）和dNPU（独立加速卡）。若追求更极致AI性能表现，不但需芯片算力，也需足够带宽，dNPU是最优选择，不用和SOC里CPU核、GPU核、ISP等单元争抢带宽。同时，dNPU有灵活搭配优点，可根据具体场景和不同性能SOC组合使用。

目前市面上性能较强NPU如华为Atlas 200I A2、算能BM1684X、瑞芯微RK182X、后摩智能M50等产品，可适配30-1000亿参数模型。

华为Atlas 200I A2：传统架构，最高20TOPS Int8算力，功耗25瓦，带宽最高51.2GB/s。可部署在无人机和机器人等设备上，优势在于高集成度和完整软硬件生态。

算能BM1684X：传统架构，单芯片32TOPS，功耗15-33瓦。以行业应用广度和成熟度见长，适合智慧安防、边缘计算服务器等需处理大量视频流场景，已在270+城市项目中落地。

瑞芯微RK1820/1828：3D堆叠封装，最高20TOPS Int8算力，功耗数据官方未披露。3D堆叠理论带宽达1TB/S，目前一些公众号实测数据给百GB/s。协处理器定位，与主处理器（如RK3588)搭配，能以较低成本为现有设备快速增添大模型能力，但面对强AI场景算力或是瓶颈。

后摩智能M50：存算一体架构，单芯片算力160TOPS，功耗10W，带宽153GB/s。协处理器定位。得益于创新架构，算力优势显著，10W功耗可放入大部分消费电子产品内。特别适合PC、机器人、智能语音设备等对功耗敏感、要求数据本地化处理大模型应用场景。

05. 未来，端侧算力将形成以dNPU为主的新范式

1.端侧ARM+NPU镜像云端X86+GPGPU将是大趋势

端侧计算未来发展也会像云端异构计算变迁一样，从CPU计算为主，逐渐向AI计算为主迁移，大模型出现和迭代是云端计算架构变迁底层动能，也将依然是端侧计算架构变革核燃料。端侧功耗敏感性及散热条件限制，让X86+GPGPU无法照搬迁移。端侧CPU，取决于看多长的时间维度，ARM或RISC-V将取代X86位置；端侧AI计算，dNPU（也有人称GPNPU，即通用AI计算单元）将取代GPGPU位置，嵌入各种复杂AI计算。CPU和NPU会根据场景需要配合前进，只是NPU会在重要性和价值量上逐渐接近云端GPGPU比例。

2.端侧将形成低、中、高算力分层

低算力场景（<10TOPS）：SOC集成iNPU是最优解决方案。在此场景下，用户对AI功能需求集中在语音助手、简单图像识别等基础应用。SOC芯片集成化设计可极大程度降低硬件成本，完美适配需求，如RK3588、全志V853、钜芯JX900，适配智能家电、入门级平板等。

中算力场景（10TOPS～50TOPS）：为追求较好AI性能表现需充足带宽，独立dNPU是最优方案。支持10亿～100亿参数量模型。这类市场用户可能需在本地设备跑7B语言模型或多模态模型。如瑞芯微RK1820、算能BM1684X等，适配各类边缘推理场景。

高算力场景（>50TOPS）：追求AI性能极致表现和未来迭代需求，dNPU方案是最优解。支持100亿～1000亿参数量大模型，随着大模型演进，算力需求无上限，供给侧瓶颈在于功耗限制。典型场景如高性能AI PC、陪伴机器人、高性能智能语音设备、边缘计算盒子等。目前国内只有后摩智能M50。

3.dNPU将成为端侧AI主导力量

传统端侧芯片设计理念通常认为SOC越来越高集成度是大趋势，这也符合端侧芯片大部分时间发展实证经验。但当SOC内某一部分计算单元重要到需独立配备带宽和存储资源，集成在SOC内就未必是最优选项。典型案例是英伟达PC端GPU显卡，作为独立dGPU，二十多年来一直在SOC外单独存在。尽管英特尔和AMD都试图在SOC里集成iGPU，但在高性能游戏显卡竞争中，英伟达占95%～98%市场份额，占绝对垄断地位。AI芯片重要性将远超游戏显卡，使用人群基数也远超游戏发烧友，同理可推，独立NPU将会是更主导端侧形态。独立NPU更像是端侧场景下GPGPU，在和SOC协同中有如下优势：

——适配操作系统和硬件多样化：dNPU可像U盘一样即插即用，无论CPU是X86、ARM还是RISC-V，操作系统是Windows、Android还是Linux，都可轻松适配，跨操作系统使用。这使得同一颗NPU可跨手机、平板、PC等硬件平台使用。

——组合成本最优化：端侧场景分散且需求各异，简化到CPU和NPU都有各种组合。独立NPU使SOC可按需扩展算力，当产品需升级以支持大模型等更复杂功能时，再通过增加dNPU提供强力AI算力；反之，根据具体场景NPU也可选择最合适SOC配合，选取最适量CPU核。例如RK3588+RK182X组合方案，较集成高算力NPU OrinNX在成本上有明显优势。

——开发迭代灵活性：当某端侧应用需增加AI功能时，若迁移到新SOC上工作量巨大，但不更换SOC，只增加一颗dNPU则可敏捷开发，主控芯片不变，快速升级AI功能。dNPU可根据算力需求单独升级，适配端侧AI模型3-6个月迭代周期，SOC研发周期一般需长达18-24个月。

——性能极致化：几乎100%高性能显卡都是dGPU，为保证游戏玩家体验要有独立带宽保障。SOC中iNPU需和其他计算单元争抢带宽资源，性能无法做到极致。独立NPU是极致AI性能唯一方案。

06. 端侧AI的场景革命，正在重构生活与工作的智能体验

桌上那个比iPod Shuffle还小无屏设备，正静静感知、规划着你生活，让你彻底告别手机碎片化信息干扰，这是IO计划颠覆手机、电脑第三设备；未来手机可能只有一个屏幕和基础联网功能，不会有操作系统和App，你想要一切或AI预测你想要一切，都将通过AI生成，这是马斯克对未来端侧AI预言。

端侧AI如今正沿清晰路径进化，从简单连接功能逐步走向与环境、用户深度融合。

初级形态：联网节点，设备能联网，大部分设备算力不足1T，仅可通过手机简单控制。

二级形态：交互入口，全球首款智能音箱Echo，它能听懂“播放钢琴曲”，但无法理解你说“我心情不好”。二级形态算力一般都在5Tops以内，重度依赖云端识别，用户声纹数据需上传服务器，反馈速度极慢。

三级形态：推理节点，具多模态感知、上下文记忆与单场景决策能力，从“听见”飞跃至“听懂、看懂并记住”。会议中正走神你突然被提问，智能会议设备捕捉到你慌乱眼神，迅速结合前面讨论内容、分析当前投屏PPT，本地数据库中相关纪要，快速生成符合老板偏好回答建议。在这一阶段，端侧AI算力达百Tops，交互延迟可压至毫秒级，数据处理完全本地化，这种实时性与安全性让用户开始接纳并适应端侧AI融入他们生活。

四级形态：自主智能体，端侧AI跃升为你生活和工作助理，能跨设备、跨场景自主规划，并能持续学习，不断自我迭代。当你说“请安排一下周末Party”，无屏AI伴侣立刻查询你聊天记录，确定参加人数，宾客口味，检查冰箱食物，规划菜谱并通过手机下单。本级形态端侧AI已实现互联互通，算力500T以上，从智能家居到办公设备，超80%数据将在端侧处理。用户语音、图像、日常生活习惯、个性化需求在本地设备间安全流转，智能体则根据用户指令，随时调用个人数据。

终极形态：目前无法预估，未来端侧AI或许是人类文明延续，是碳基生命与硅基生命共生......

端侧AI已迈入第三级形态，对计算芯片要求呈指数级攀升，且必须在算力、功耗与成本间找到最佳平衡点。传统冯诺依曼架构，数据在存储与运算单元间反复搬运，1w功耗限制下最多只能提供几Tops算力。因此，为突破这一限制，多种新型计算架构相继涌现：

光子计算芯片利用光波传输信息，延迟可达皮秒级，功耗极低，但光源系统仍面临技术成熟度挑战；量子计算芯片借助量子并行与叠加态，可同时处理海量运算，速度远超经典计算机，目前尚处早期阶段，错误率极高；可重构数据流用数据驱动计算过程，减少指令调度开销；Chiplet技术通过异构集成，将不同工艺、功能芯片模块封装在一起，实现高性能与低成本兼顾；存算一体技术通过融合计算与存储单元，将数据搬运路径缩至最短，大幅提升计算效率，是新型计算架构中更适合端侧AI、且能商业量产方案之一。

目前，国内外众多芯片厂商都在积极布局存算一体技术，美国人工智能芯片初创公司D-Matrix第一款芯片Corsair已成功量产，主要用于聊天机器人等云端推理场景，公司估值达20亿美元；核心技术源于DARPA（美国国防高级研究计划局）资助研究项目Encharge AI则面向端侧AI场景，芯片算力高达200T，今年年底将送测客户。

国内知存科技、后摩智能等初创公司，也已推出多款基于存算一体架构AI芯片，知存科技深耕小算力场景，其产品已广泛应用于可穿戴设备，AIoT等；而后摩智能则主攻大算力端侧AI场景，已成功将大模型能力导入联想AI PC、讯飞智能语音设备、陪伴机器人等场景。

Sam Altman曾明确指出，当前AI发展核心瓶颈已从算法转向算力、存储与能源构成“三位一体”基础设施挑战。未来，无论是云端还是端侧AI，以存算一体为代表的新技术架构将会逐步走向舞台中央，成为驱动AI全场景算力升级的核心引擎。

结语：端侧AI，定义智能时代的终极形态

端侧AI崛起是技术发展必然——从通用计算到AI计算，从云端到终端，从集成NPU到独立NPU，每一步都遵循“效率优化+场景适配”逻辑。未来五年，所有终端都将经历一场深刻大模型洗礼与蜕变,端侧AI将从高端走向普及，从单点功能走向全场景智能，真正开启“人人可用、万物智能”时代。一个由端侧AI定义的、更高效、更普惠、更具想象力智能终局，正在加速到来。