2025年,谷歌推出“捕日计划”,OpenAI启动“星际之门”,全球AI产业全力投入以算力为核心的云端竞赛。与此同时,一场深刻的变革正在终端设备上悄然展开,端侧AI正成为技术演进的新焦点。
5月,OpenAI以65亿美元收购苹果前首席设计官Jony Ive创立的AI硬件公司io,计划于2026年底推出首款无屏幕AI硬件;11月,马斯克预言传统手机将在5-6年内消失,被仅作为“AI推理边缘节点”的设备取代;12月,字节跳动试水豆包AI手机,引发行业广泛关注。
大模型的战火,正从云端算力的“正面战场”,蔓延至亿万终端设备的“毛细血管”,一场关乎AI未来格局的端侧竞速正式拉开帷幕。
计算技术的发展并非线性前进,而是由范式转换驱动:1945年,冯・诺依曼提出“存储程序”理论,为通用计算奠定基础;1946年ENIAC电子计算机诞生,开启通用计算时代,以CPU为核心解决了“计算有无”问题。
2006年,英伟达发布CUDA架构,将GPU从图形渲染推向通用计算,其并行计算能力较CPU提升100倍以上,标志着加速计算时代正式到来。2012年,基于CUDA平台训练的神经网络模型AlexNet将ImageNet图像识别错误率从26%降至15%,算力消耗较CPU方案降低90%,宣告深度学习时代开启。
2020年生成式AI的突破,将加速计算推向新高度——LLM(大语言模型)与VLM(视觉语言模型)的出现,创造了“认知级计算”需求。与传统任务不同,大模型计算对并行处理能力和海量数据吞吐有极致需求,对算力和带宽提出更高要求,特别是VLM模型需要同时处理视觉与语言数据,形成“视觉感知-语言理解-决策生成”闭环,加速云端AI芯片发展。
大模型快速迭代打破云端AI芯片垄断格局,催生“云端训练-端侧部署”协同生态:云端算力持续堆叠,模型向超大参数规模发展;端侧模型聚焦极致压缩,在有限算力下实现最佳性能。云端作为AI智能“大脑”,负责大模型训练、全局决策和知识管理;端侧作为AI智能“神经末梢”,承担主动感知、实施决策和用户交互等功能。
今天,云端算力已完成从以CPU为主的通用计算到GPU为核心的智能计算的历史性转变。根据国际TOP500组织数据,2019年TOP500超级计算机中近90%算力完全依赖CPU,到2025年这一数字已急剧下降到不足15%。六年时间便完成了Intel和英伟达算力霸主地位的交接。
AI的终极价值不在于实验室参数,而在于对现实世界的改造能力和全社会技术采用率。云端模型部署的高延迟和高成本,使其难以适配工业、消费等端侧场景,“让小模型拥有大智慧”的模型蒸馏技术应运而生。该技术将千亿级模型压缩至百亿甚至十亿级,在保持较高性能的同时,大幅缩减模型尺寸和计算复杂度,使其能部署在AI PC、本地会议纪要一体机、AI手机、AI网关等端边侧场景。
根据弗若斯特沙利文预测,2029年全球端侧AI市场规模将增至1.2万亿元,复合年增长率高达39.6%。联想AI PC渗透率已达联想PC总出货量30%以上;智能会议设备Plaud年销量破百万;Meta AI眼镜发布两天内售罄,2026年将破千万台。端侧AI正成为科技巨头必争之地。
我国端侧AI发展有天然优势:一方面顶层设计高度重视,另一方面有巨大端侧市场和应用场景。根据弗若斯特沙利文预测,中国端侧AI市场2029年将实现3077亿元,复合年增长率高达39.9%。
“十五五”规划建议、《人工智能+行动实施指导意见》等政策文件明确提出,要全面实施“人工智能+”行动,抢占人工智能产业应用制高点,全方位赋能千行百业。锚定2030年“十五五”收官节点,通过五年攻坚,实现智能终端普及率超90%、产业规模突破10万亿元目标,为端侧AI规模化爆发注入强劲确定性动能。“量化指标”政策指引,让企业研发和市场推广有明确方向,推动端侧AI从“零散试点”走向“规模化落地”。
中国是全球最大消费电子、家电和汽车生产国,为端侧AI芯片和解决方案提供巨大市场需求。国内已形成全球最完整端侧AI产业链:上游有华为昇腾、地平线、瑞芯微、后摩智能等芯片厂商提供硬件支撑;中游有Deepseek、阿里、讯飞等企业提供算法模型;下游有荣耀、联想、小米等终端厂商负责产品落地,形成难以复制的生态优势。
政策支持与市场需求形成共振,将推动国内端侧AI市场规模快速增长,推动大模型从云端走向手机、PC、汽车、机器人等亿万终端设备。
云端大模型已出现“杀手级应用”:ChatGPT最新披露周活跃用户达8亿、豆包、Deepseek月活也达1.72亿和1.45亿,而端侧大模型的Killer App尚在探索中。
这一差异核心在于:一方面,在端侧功耗、成本受限条件下,端侧算力芯片性能决定能跑端侧模型的物理基础;另一方面,模型量化、压缩能力迭代,决定模型软件上限。
让我们看两个底层逻辑:
1.AI主导计算在云端已经发生
如前所述,云端计算架构CPU:GPU从2019年9:1变为2025年1:9,2020年大模型出现加速这一计算范式革命。站在2025年末,端侧计算范式是否会延续云端以AI算力芯片为主导、CPU为辅助新格局?类似云端已发生的,端侧传统数据处理、检索、查询、推荐等以AI计算形式带来更优体验,用户将用脚投票。若将Deepseek模型装到PC或手机,Deepseek直接访问本地工作文件、手机相册视频、聊天记录等(因本地无隐私、延时问题),不仅能帮我们高效完成工作,聊天也会更深入有趣。
在云端,大模型彻底改变游戏规则,不断加速AI飞轮势不可挡,端侧复制云端故事只是工程问题。
2.数据中心传输数据有物理上限,端侧AI不是选择题
马斯克在Joe Rogan Podcast谈到,边缘节点处理本地推理并与服务器协作不是可选项,是唯一在架构上可行的前进路径。业界按运营级4K流媒体每路约25–50Mbps带宽需求设计。按较保守25 Mbps/用户和2023年997 Tbps海底光缆总带宽算,理论最大同时4K流用户约39,880,000(约4000万)。这用户量级远不能支撑目前ChatGPT用户体量,更不要提类似微信超级APP用户量级。完全由服务器端渲染和计算需要不切实际数据传输率,可能超出现有全球带宽容量,所以端侧AI感知和计算让互联网和云处理不现实。
综上,云端CPU与GPU霸权交替,本质是“效率与场景适配”对计算范式筛选。这两大底层逻辑在端侧同样成立——AI化体验用户诉求不可逆,数据传输物理上限不可破。因此,端侧计算架构变革非偶然,是技术演进与现实需求共同作用的必然结果。
1.模型“瘦身”落地加速
MoE架构让大模型在保持性能同时实现“瘦身”,为端侧部署扫清架构障碍;蒸馏后模型在保持较高性能同时,大幅缩减模型尺寸和计算复杂度。华为CBQ量化算法将模型压缩至原体积1/7,性能保留99%;阿里逆向蒸馏技术使2B模型性能反超7B模型8.8%。模型压缩技术突破降低算力门槛,使其能部署在AI PC、AI手机、创新AI硬件等端侧场景。
2.端侧算力需求激增
随着VLM等多模态大模型广泛应用,要求同时处理视觉细节和文本逻辑,多模态数据处理复杂度远超纯文本数据,算力需求大幅攀升,如Qwen3 VL 8B需几十TOPS算力才能跑动。另外,智能体(agent)快速发展,需反复调用多个模型,推理算力将指数级增长。
3.端侧算力供给大幅跃迁
需求增长刺激算力供给,前大模型时代端侧芯片通常只有几TOPS算力,AI PC出现后Intel和高通芯片有几十TOPS算力。国产芯片里瑞芯微RK182X作为独立NPU算力20TOPS;后摩智能M50算力达160TOPS。端侧NPU算力首次超100TOPS,预计将继续向高算力、高带宽、低功耗方向演进。
1.端侧SOC芯片:提供通用基础型解决方案
这类芯片以ARM CPU为核心,集成轻量级NPU,主打“性价比+通用性”。架构设计业界普遍采用“CPU+GPU+NPU+ISP”混合集成架构,适配1-10亿参数端侧小模型,主要应用在智能音箱、定制平板设备、智能门锁等端侧场景,这类设备对AI性能要求较低,注重成本控制。以瑞芯微RK3588为例,4个ARM A76大核,4个A55小核,6TOPS NPU,强大CPU核和小算力NPU组合。这是典型前大模型时代产品,以控制为主,附带少量AI能力处理以图像为主泛安防等场景。全志H88K、钜芯JX100、恒烁HS610等SOC AI能力相对瑞芯微更小。类比云端计算架构,当前端侧依然是CPU为主计算范式,只是端侧是ARM替代X86。
2.端侧NPU:提供极致性能解决方案
虽然GPU成云端AI计算核心,但其功耗劣势在端侧是明显短板,因此端侧AI计算NPU渐成主流。GPU存在形态分iGPU(集显)和dGPU(独显),NPU也分iNPU(集成加速卡)和dNPU(独立加速卡)。若追求更极致AI性能表现,不但需芯片算力,也需足够带宽,dNPU是最优选择,不用和SOC里CPU核、GPU核、ISP等单元争抢带宽。同时,dNPU有灵活搭配优点,可根据具体场景和不同性能SOC组合使用。
目前市面上性能较强NPU如华为Atlas 200I A2、算能BM1684X、瑞芯微RK182X、后摩智能M50等产品,可适配30-1000亿参数模型。
华为Atlas 200I A2:传统架构,最高20TOPS Int8算力,功耗25瓦,带宽最高51.2GB/s。可部署在无人机和机器人等设备上,优势在于高集成度和完整软硬件生态。
算能BM1684X:传统架构,单芯片32TOPS,功耗15-33瓦。以行业应用广度和成熟度见长,适合智慧安防、边缘计算服务器等需处理大量视频流场景,已在270+城市项目中落地。
瑞芯微RK1820/1828:3D堆叠封装,最高20TOPS Int8算力,功耗数据官方未披露。3D堆叠理论带宽达1TB/S,目前一些公众号实测数据给百GB/s。协处理器定位,与主处理器(如RK3588)搭配,能以较低成本为现有设备快速增添大模型能力,但面对强AI场景算力或是瓶颈。
后摩智能M50:存算一体架构,单芯片算力160TOPS,功耗10W,带宽153GB/s。协处理器定位。得益于创新架构,算力优势显著,10W功耗可放入大部分消费电子产品内。特别适合PC、机器人、智能语音设备等对功耗敏感、要求数据本地化处理大模型应用场景。
1.端侧ARM+NPU镜像云端X86+GPGPU将是大趋势
端侧计算未来发展也会像云端异构计算变迁一样,从CPU计算为主,逐渐向AI计算为主迁移,大模型出现和迭代是云端计算架构变迁底层动能,也将依然是端侧计算架构变革核燃料。端侧功耗敏感性及散热条件限制,让X86+GPGPU无法照搬迁移。端侧CPU,取决于看多长的时间维度,ARM或RISC-V将取代X86位置;端侧AI计算,dNPU(也有人称GPNPU,即通用AI计算单元)将取代GPGPU位置,嵌入各种复杂AI计算。CPU和NPU会根据场景需要配合前进,只是NPU会在重要性和价值量上逐渐接近云端GPGPU比例。
2.端侧将形成低、中、高算力分层
低算力场景(<10TOPS):SOC集成iNPU是最优解决方案。在此场景下,用户对AI功能需求集中在语音助手、简单图像识别等基础应用。SOC芯片集成化设计可极大程度降低硬件成本,完美适配需求,如RK3588、全志V853、钜芯JX900,适配智能家电、入门级平板等。
中算力场景(10TOPS~50TOPS):为追求较好AI性能表现需充足带宽,独立dNPU是最优方案。支持10亿~100亿参数量模型。这类市场用户可能需在本地设备跑7B语言模型或多模态模型。如瑞芯微RK1820、算能BM1684X等,适配各类边缘推理场景。
高算力场景(>50TOPS):追求AI性能极致表现和未来迭代需求,dNPU方案是最优解。支持100亿~1000亿参数量大模型,随着大模型演进,算力需求无上限,供给侧瓶颈在于功耗限制。典型场景如高性能AI PC、陪伴机器人、高性能智能语音设备、边缘计算盒子等。目前国内只有后摩智能M50。
3.dNPU将成为端侧AI主导力量
传统端侧芯片设计理念通常认为SOC越来越高集成度是大趋势,这也符合端侧芯片大部分时间发展实证经验。但当SOC内某一部分计算单元重要到需独立配备带宽和存储资源,集成在SOC内就未必是最优选项。典型案例是英伟达PC端GPU显卡,作为独立dGPU,二十多年来一直在SOC外单独存在。尽管英特尔和AMD都试图在SOC里集成iGPU,但在高性能游戏显卡竞争中,英伟达占95%~98%市场份额,占绝对垄断地位。AI芯片重要性将远超游戏显卡,使用人群基数也远超游戏发烧友,同理可推,独立NPU将会是更主导端侧形态。独立NPU更像是端侧场景下GPGPU,在和SOC协同中有如下优势:
——适配操作系统和硬件多样化:dNPU可像U盘一样即插即用,无论CPU是X86、ARM还是RISC-V,操作系统是Windows、Android还是Linux,都可轻松适配,跨操作系统使用。这使得同一颗NPU可跨手机、平板、PC等硬件平台使用。
——组合成本最优化:端侧场景分散且需求各异,简化到CPU和NPU都有各种组合。独立NPU使SOC可按需扩展算力,当产品需升级以支持大模型等更复杂功能时,再通过增加dNPU提供强力AI算力;反之,根据具体场景NPU也可选择最合适SOC配合,选取最适量CPU核。例如RK3588+RK182X组合方案,较集成高算力NPU OrinNX在成本上有明显优势。
——开发迭代灵活性:当某端侧应用需增加AI功能时,若迁移到新SOC上工作量巨大,但不更换SOC,只增加一颗dNPU则可敏捷开发,主控芯片不变,快速升级AI功能。dNPU可根据算力需求单独升级,适配端侧AI模型3-6个月迭代周期,SOC研发周期一般需长达18-24个月。
——性能极致化:几乎100%高性能显卡都是dGPU,为保证游戏玩家体验要有独立带宽保障。SOC中iNPU需和其他计算单元争抢带宽资源,性能无法做到极致。独立NPU是极致AI性能唯一方案。
桌上那个比iPod Shuffle还小无屏设备,正静静感知、规划着你生活,让你彻底告别手机碎片化信息干扰,这是IO计划颠覆手机、电脑第三设备;未来手机可能只有一个屏幕和基础联网功能,不会有操作系统和App,你想要一切或AI预测你想要一切,都将通过AI生成,这是马斯克对未来端侧AI预言。
端侧AI如今正沿清晰路径进化,从简单连接功能逐步走向与环境、用户深度融合。
初级形态:联网节点,设备能联网,大部分设备算力不足1T,仅可通过手机简单控制。
二级形态:交互入口,全球首款智能音箱Echo,它能听懂“播放钢琴曲”,但无法理解你说“我心情不好”。二级形态算力一般都在5Tops以内,重度依赖云端识别,用户声纹数据需上传服务器,反馈速度极慢。
三级形态:推理节点,具多模态感知、上下文记忆与单场景决策能力,从“听见”飞跃至“听懂、看懂并记住”。会议中正走神你突然被提问,智能会议设备捕捉到你慌乱眼神,迅速结合前面讨论内容、分析当前投屏PPT,本地数据库中相关纪要,快速生成符合老板偏好回答建议。在这一阶段,端侧AI算力达百Tops,交互延迟可压至毫秒级,数据处理完全本地化,这种实时性与安全性让用户开始接纳并适应端侧AI融入他们生活。
四级形态:自主智能体,端侧AI跃升为你生活和工作助理,能跨设备、跨场景自主规划,并能持续学习,不断自我迭代。当你说“请安排一下周末Party”,无屏AI伴侣立刻查询你聊天记录,确定参加人数,宾客口味,检查冰箱食物,规划菜谱并通过手机下单。本级形态端侧AI已实现互联互通,算力500T以上,从智能家居到办公设备,超80%数据将在端侧处理。用户语音、图像、日常生活习惯、个性化需求在本地设备间安全流转,智能体则根据用户指令,随时调用个人数据。
终极形态:目前无法预估,未来端侧AI或许是人类文明延续,是碳基生命与硅基生命共生......
端侧AI已迈入第三级形态,对计算芯片要求呈指数级攀升,且必须在算力、功耗与成本间找到最佳平衡点。传统冯诺依曼架构,数据在存储与运算单元间反复搬运,1w功耗限制下最多只能提供几Tops算力。因此,为突破这一限制,多种新型计算架构相继涌现:
光子计算芯片利用光波传输信息,延迟可达皮秒级,功耗极低,但光源系统仍面临技术成熟度挑战;量子计算芯片借助量子并行与叠加态,可同时处理海量运算,速度远超经典计算机,目前尚处早期阶段,错误率极高;可重构数据流用数据驱动计算过程,减少指令调度开销;Chiplet技术通过异构集成,将不同工艺、功能芯片模块封装在一起,实现高性能与低成本兼顾;存算一体技术通过融合计算与存储单元,将数据搬运路径缩至最短,大幅提升计算效率,是新型计算架构中更适合端侧AI、且能商业量产方案之一。
目前,国内外众多芯片厂商都在积极布局存算一体技术,美国人工智能芯片初创公司D-Matrix第一款芯片Corsair已成功量产,主要用于聊天机器人等云端推理场景,公司估值达20亿美元;核心技术源于DARPA(美国国防高级研究计划局)资助研究项目Encharge AI则面向端侧AI场景,芯片算力高达200T,今年年底将送测客户。
国内知存科技、后摩智能等初创公司,也已推出多款基于存算一体架构AI芯片,知存科技深耕小算力场景,其产品已广泛应用于可穿戴设备,AIoT等;而后摩智能则主攻大算力端侧AI场景,已成功将大模型能力导入联想AI PC、讯飞智能语音设备、陪伴机器人等场景。
Sam Altman曾明确指出,当前AI发展核心瓶颈已从算法转向算力、存储与能源构成“三位一体”基础设施挑战。未来,无论是云端还是端侧AI,以存算一体为代表的新技术架构将会逐步走向舞台中央,成为驱动AI全场景算力升级的核心引擎。
端侧AI崛起是技术发展必然——从通用计算到AI计算,从云端到终端,从集成NPU到独立NPU,每一步都遵循“效率优化+场景适配”逻辑。未来五年,所有终端都将经历一场深刻大模型洗礼与蜕变,端侧AI将从高端走向普及,从单点功能走向全场景智能,真正开启“人人可用、万物智能”时代。一个由端侧AI定义的、更高效、更普惠、更具想象力智能终局,正在加速到来。
本文由主机测评网于2026-02-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260222833.html