当前位置：首页 > 科技资讯 > 正文

AI硬件入口争夺战：阿里抢滩眼镜，字节重构手机系统

主机测评网
科技资讯
2026-02-25
692

AI硬件入口争夺战：阿里抢滩眼镜，字节重构手机系统 AI硬件豆包助手 AI眼镜人机交互第1张

别再只盯着大模型的参数竞赛，真正的战场已经转移到用户身边。

短短一个月内，阿里巴巴一口气发布了6款AI眼镜，而字节跳动则直接将豆包嵌入手机操作系统，并备货50万台新机样机。这不是试水，而是对下一代人机交互入口的强势卡位。

模型再强大，若用户感知不到，便毫无意义。当行业纷纷喊出Agent、推崇“意图直达”时，你会发现——AI的真正较量，不再是“谁回答得更聪明”，而是“谁更像你的操作系统”。

一边是跳出手机束缚的眼镜，一边是深度改写手机逻辑的助手，两者殊途同归，都在争夺“下一代人机交互”的船票。这背后不仅是交互方式的变革，更是平台主导权的重新分配。

云端的比拼告一段落，现在，设备端的决战已然打响。

一、大模型触及天花板，入口成为新焦点

在AI发展的上半场，大模型无疑是主角。参数规模更大、训练数据更广、推理速度更快，这些曾是玩家们抢占高地的法宝。但进入2024年下半年，模型竞赛逐渐显露疲态。

OpenAI、Anthropic等头部企业相继推迟下一代模型的发布，国内各大模型的能力差距也在迅速缩小。夸克、豆包、文心一言、通义千问在理解能力上的缠斗，让用户越来越难以感知差异。技术天花板尚未触及，但用户热情已开始降温。模型本身，已不再是决定性的胜负手。

于是，焦点转向了模型的落地应用，转向了人。

而人并不直接使用模型，而是通过终端来调用服务。这意味着，谁能掌控更贴近用户的触点，谁就能将模型能力转化为实际价值。在AI语境下，这些触点正是AI手机、AI眼镜等嵌入式硬件。

阿里智能终端产品负责人晋显直言：“所有大模型训练的数据都依赖于端侧产生的业务数据，许多模型正是通过手机、平板、电脑等使用场景采集数据，反过来服务于这些场景。”换言之，端侧不仅是模型的分发渠道，更是其“反馈闭环”。每一次调用、每一条交互路径、每一笔操作记录，都在反向加持模型能力。

知名科技产业时评人彭德宇进一步指出，当AI进入“Agent阶段”，这一趋势更加明显。传统的“你问我答”式Chatbot已无法满足用户，新的期待是“说一句话，它帮我把事做了”。这意味着AI不仅要理解语言，还要介入实际任务链的执行。

以新发布的豆包手机助手为例，用户说“帮我在美团给上周的订单写个好评”，它需要跨越多个App、识别页面元素、模拟点击路径，完成一整套任务。没有足够的操作系统权限和多模态大模型的屏幕理解能力，这几乎无法实现。

而这样的能力，恰恰需要端侧作为落地场景。

端侧的价值不仅在于“交互效率”，更在于“生态主导权”。对巨头而言，用户使用谁的设备、在哪个系统上执行任务、谁拥有权限调用入口，决定了未来平台格局的基石。

OpenAI今年5月以近65亿美元收购由苹果前首席设计官艾维创立的硬件公司IO，被解读为All in Agent硬件的战略信号；谷歌Gemini团队与三星合作推进端侧部署；国内的小米、理想、阿里、字节也都以不同方式介入终端形态改造。

这并非“造硬件”本身的热情，而是“不能失去入口”的焦虑。

如果说GPT将人拉进了AI时代的大门，那么从2025年开始，AI真正走进用户生活的那扇门，可能不在云端，而在你眼前的眼镜里，或你手中的手机中。

二、两条路径，一个终点：抢占下一代入口

尽管都在AI硬件赛道发力，阿里和字节的路线却截然不同。

阿里选择从零打造一个新物种——AI眼镜。11月27日发布的6款夸克AI眼镜，在我看来几乎都是“功能优先”的工程机风格，不追求时尚，不妥协形态，直奔实用性而去。它们的使命并非取悦普通消费者，而是跑通“感知式人机交互”的逻辑。

阿里眼中的AI眼镜，是下一代“个人移动入口”。它不是手机的配件，而是对手机场景的逐步替代。阿里智能终端业务负责人宋刚在发布会上明确表示：“它是未来最有机会挑战手机的设备。”这并非营销话术，而是一次彻底的交互重估。

在手机时代，用户需要通过“下载App—打开—搜索—操作”来完成任务。而AI眼镜希望用户只需一句话，“帮我拍照上传微博”，AI就能调用摄像头、识别场景、发布内容。底层逻辑不再是App，而是Agent：一个能理解意图并主动执行的交互中枢。

这背后是阿里云端模型与终端协同的典型思路。大模型未来要迭代，必须依赖端侧采集的业务数据“喂养”；只有自研硬件，才有足够权限打通数据采集、系统调用和用户交互的全流程。

相比之下，字节选择了几乎相反的路径：它不造手机，却要“重做手机系统”。

12月1日发布的豆包与中兴合作的工程样机nubia M153并非新硬件，其核心卖点是“豆包手机助手”——一个内嵌操作系统、具备完整任务链执行能力的AI Agent。它能理解屏幕界面、模拟点击、跨App跳转，实现“意图直达服务”。

不同于传统语音助手的浅层指令执行，豆包助手深入操作系统底层，通过多模态大模型理解图形界面，实现“在虚拟屏幕内完成复杂任务”的能力。例如“下个月去巴黎，帮我把收藏的餐厅标在地图上”，豆包能拆解出6步操作，包括从社交媒体提取信息、在高德地图标记、携程订票、备忘录整理等，像人一样执行。

这实际上是在“重构手机操作系统的主控逻辑”，让AI成为系统的“第一入口”，而非App里的一个功能。

字节选择了更灵活的策略：与手机厂商合作，用软件能力深嵌设备生态。据极客公园援引前中兴产品经理消息，nubia M153的首销备货量高达50万台，对一个AI助手的系统级预装项目而言，这已是相当激进的数字。

这并非字节首次布局硬件。早在2018年，它就收购锤子团队切入手机生态；2021年并购PICO进军VR；2024年初收购Oladance切入AI耳机……如今，这些硬件资源已全部整合进“字节Ocean部门”，由36氪创始人刘成城负责，对上汇报给Flow负责人朱骏。从组织架构看，这已是字节少有的战略级部门配置。

阿里是在打造一个新的入口设备，字节则是在改造现有入口系统；前者用“设备+场景”颠覆App逻辑，后者用“系统+模型”改写交互协议。但目标一致——谁能在终端掌握主动权，谁就可能在AI平台时代赢得下一个生态级入口。

无论路径如何，这一次两家互联网巨头都给出了同一个答案：AI时代的主场，正在向设备端迁移。

三、泡沫还是起点？AI硬件的现实与不确定性

AI硬件听起来像是下一个“风口”，但现实落地远比预期复杂。

先看豆包AI手机。虽然首销备货量达50万台，在中兴这一体量的厂商体系里已是重量级投入，但距离主流旗舰机动辄200万~300万台的出货量仍有明显差距。更何况，其售价高达3499元，面向的并非大众市场，而是开发者和极客用户。这款产品更像是一种“技术验证型入口”：用于测试AI助手的落地体验，打磨系统调用逻辑，积累系统权限合作的模板，而非真正意义上的消费电子产品。

但哪怕只是“预览版”，豆包助手所暴露的技术不确定性也不容小觑。“任务链执行”是否稳定、“屏幕识别”是否准确，以及在多App之间执行任务时的异常处理、误触判断、安全容错，系统层级的AI控制本质上是对操作系统架构的一次重构。而任何一个Bug，都可能造成用户体验的灾难。

官方文档也明确提示，当前“操作手机”功能尚处于技术预览阶段，距离大规模稳定落地仍有距离。这种在“幻想”和“现实”之间拉扯的状态，也反映出AI Agent在现阶段仍处于打磨期。

阿里的AI眼镜同样如此。虽然一次性推出6款产品展现了极高的战略押注意图，但目前这类设备在国内几乎没有明确的市场基础。从产品形态看，夸克AI眼镜走的是“感知驱动 + Agent操控”的极简路线，追求“开机即用、对话即交互”，这在逻辑上具备颠覆手机的潜力，但技术条件尚不成熟。

尤其是当前AI眼镜在传感器、续航、算力集成方面仍面临显著瓶颈。要真正实现“识别环境 + 意图理解 + 动作执行”，至少需要设备具备稳定的多模态推理能力和完整的场景建模能力。这在2025年仍是一个高门槛命题。

更现实的问题是，用户是否真的准备好将“交互权”交给AI？

豆包助手已具备在后台“自动操作”的能力，可以绕过用户主动点击，实现任务链闭环。但这引发了另一问题：数据权限、个人隐私、支付安全该如何保障？在官方演示中，尽管支付环节仍保留人工确认机制，但AI Agent绕开App、直接模拟交互操作的能力，仍然存在被滥用的风险。尤其是在安全边界尚未建立、系统权限标准不统一的阶段，这类“能力超纲”的AI产品可能会成为监管灰区。

尽管如此，这一波AI硬件热并不等于泡沫。

恰恰相反，它是大模型平台进化的必然阶段。当Chatbot不再新鲜、App用户增速放缓、模型能力难以被感知，只有通过重构交互形态，AI才能重新塑造自己的“用户价值感知界面”。

硬件，不是终点，而是一次“打通入口-调用系统-采集数据-反馈模型”的平台级重构。

眼下，谷歌的AI眼镜项目已进入POC阶段；小米、理想分别在AI眼镜和车载AI助手上频频试水；OpenAI收购IO打造Agent硬件设备；字节通过豆包助手测试全链路系统整合；阿里则押注眼镜形态挑战手机主导权——全球范围内，科技公司正围绕“平台级AI入口”展开新一轮布局。

这不只是一场硬件更新战，而是一个新平台周期的启动信号。