当前位置:首页 > 科技资讯 > 正文

AI硬件入口争夺战:下一代交互平台的新竞赛

AI硬件入口争夺战:下一代交互平台的新竞赛 AI眼镜 豆包助手 人机交互 平台控制权 第1张

无需再过度关注大模型参数的比拼,真正的较量现已正式拉开帷幕。

在短短一个月内,阿里连续推出六款AI眼镜,而字节则将豆包助手深度集成到手机系统中,并备货了50万台新机样品。这并非浅尝辄止,而是对入口的强硬争夺。

模型再强大,若用户感知薄弱便徒劳无功。当业界纷纷聚焦Agent、强调“意图直达”时,一个趋势愈发清晰——AI竞争的核心已非“谁回答得更巧妙”,而是“谁更接近成为你的操作系统”。

一方是跳出手机框架的眼镜,另一方是重塑手机系统的助手,本质都在竞逐“下一代人机交互”的通行证。这背后不仅是交互模式的变革,更是平台主导权的转移。

云端激战暂告段落,如今,胜负关键已转向设备端。

一、大模型见顶之后,入口决定胜负

在AI浪潮的上半场,大模型无疑是焦点。参数规模、训练数据广度、推理速度成为制高点。但步入2024年下半年,这场模型竞赛显露出疲态。

不仅OpenAI、Anthropic等头部企业推迟了新一代模型发布,国内主流大模型的能力差距也在迅速缩小。夸克、豆包、文心一言、通义千问在理解力上的拉锯,使用户感知趋于模糊。技术天花板尚未触及,用户热情却已放缓。模型自身,难以继续充当决定性变量。

于是焦点转移——从模型的“强大”转向如何“实用化”,转向人。

但人并非直接使用模型,而是通过终端获取服务。这意味着,谁掌控更贴近用户的触点,谁就拥有将模型能力转化为服务价值的主导权。在AI语境下,这些触点正是AI手机、AI眼镜等嵌入式硬件。

阿里智能终端产品负责人晋显曾明确指出其中逻辑:“所有大模型训练数据都依赖于终端采集的业务数据,许多模型正是通过手机、平板、电脑等场景的数据来服务这些场景。”换言之,终端不仅是模型的分发节点,更是其“反馈闭环”。每一次用户调用、每一个交互路径、每一条操作记录,都在反向增强模型能力。

知名科技产业评论人彭德宇表示:当AI进入“Agent阶段”,这一趋势更加显著。传统的“问答式”聊天机器人逻辑已不足够,新用户期待是“说一句话,它帮我把事办妥”,这意味着AI不仅要理解语言,还需介入实际任务链执行。

以新发布的豆包手机助手为例,用户提出“帮我在美团给上周的订单写个好评”,它需跨越多个应用、识别页面元素、模拟点击路径,完成完整任务链。若没有深入的操作系统权限和多模态大模型的屏幕理解能力,这几乎无法实现。

而这类能力,恰恰需要终端作为落地场景。

终端价值不仅在于“交互效率”,更在于“生态主导权”。对科技巨头而言,用户使用谁的设备、在哪个系统执行任务、谁拥有入口调用权限,决定了未来平台格局的基础。

OpenAI今年五月以近650亿美元收购由苹果前首席设计官艾维创立的硬件公司IO,被视为全力投入Agent硬件的战略信号;谷歌Gemini团队与三星合作推进端侧部署;国内的小米、理想、阿里、字节也通过不同方式介入终端形态革新。

这并非出于“造硬件”本身的热忱,而是“不能失去入口”的焦虑。

如果说GPT将人带入AI时代门槛,那么从2025年起,AI真正融入用户生活的那扇门,可能不在云端,而在你眼前的眼镜或手中的手机里。

二、两种路径,一个目标:争夺下一代入口

虽然同在AI硬件赛道布局,阿里和字节的路径却几乎截然相反。

阿里选择从头打造新物种——AI眼镜。11月27日发布的6款夸克AI眼镜,风格偏向“功能优先”的工程机,不追求时尚,不拘泥形态,直指实用性。它的使命不是吸引普通消费者,而是验证“感知式人机交互”的逻辑。

阿里视AI眼镜为下一代“个人移动入口”。它非手机配件,而是手机场景的潜在替代者。阿里智能终端业务负责人宋刚在发布会上明确表示:“它是未来最有机会挑战手机的设备。”这不仅是营销话语,更是一次彻底的交互重构。

在手机时代,用户需通过“下载应用—打开—搜索—操作”完成任务。而AI眼镜希望用户只需一句话,如“帮我拍照上传微博”,AI便能调用摄像头、识别场景、发布内容。底层逻辑已从应用转向Agent:一个能理解意图并主动执行的交互中枢。

这背后是阿里云端模型与终端协同的典型思路。大模型未来迭代,必须依赖终端采集的业务数据“滋养”;只有打造自有硬件,才能充分打通数据采集、系统调用和用户交互的全流程。

相比之下,字节选择了几乎相反的路径:它不制造手机,却要“重构手机系统”。

12月1日发布的豆包与中兴合作的工程样机nubia M153手机并非全新硬件,其核心亮点是“豆包手机助手”——一个内嵌操作系统、具备完整任务链执行能力的AI Agent。它能理解屏幕界面、模拟点击、跨应用跳转,实现“意图直达服务”。

不同于传统语音助手的浅层指令执行,豆包助手深入到操作系统底层,通过多模态大模型理解图形界面,实现“在虚拟屏幕内完成复杂任务”的能力。例如“下个月去巴黎,帮我把收藏的餐厅标在地图上”,豆包能拆解出多步操作,包括社交媒体提取、高德地图标记、携程订票、备忘录整理等,像人类一样执行。

这实质上是在“重构手机操作系统的主控逻辑”,让AI成为系统的“第一入口”,而非应用内的一个功能。

字节采取了更灵活的策略:与手机厂商合作,以软件能力深度嵌入设备生态。据极客公园援引前中兴产品经理消息,nubia M153的首销备货量达50万台,对一个AI助手的系统级预装项目而言,这已是激进数字。

这不是字节首次布局硬件。早在2018年,它便收购锤子团队切入手机生态;2021年并购PICO进军VR;2024年初收购Oladance切入AI耳机……如今,这些硬件资源已全部整合进“字节Ocean部门”,由36氪创始人刘成城负责,对上Flow负责人朱骏。从组织架构看,这已是字节少有的战略级配置。

阿里在创造新的入口设备,字节则在改造现有入口系统;前者以“设备+场景”颠覆应用逻辑,后者以“系统+模型”改写交互协议。但目标一致——谁能在终端掌握主动权,谁就可能在AI平台时代占据下一个生态级入口。

无论路径如何分歧,两家互联网巨头给出了相同答案:AI时代的主场,正加速向设备端迁移。

三、泡沫还是起点?AI硬件的现实与不确定性

AI硬件听起来像下一个“风口”,但实际落地远比预期复杂。

先看豆包AI手机。尽管首销备货量达50万台,在中兴这类厂商体系中已属重投入,但距离主流旗舰机动辄200万~300万台的出货量仍有差距。何况,其售价高达3499元,目标并非大众市场,而是开发者和极客用户。这款产品更似“技术验证型入口”:用于测试AI助手落地体验、打磨系统调用逻辑、积累权限合作模板,而非真正的消费电子产品。

但即便作为“预览版”,豆包助手暴露的技术不确定性也不容忽视。无论是“任务链执行”的稳定性、“屏幕识别”的准确性,还是在多应用间执行任务时的异常处理、误触判断、安全容错,系统层级的AI控制本质是对操作系统架构的重构。任何一个漏洞,都可能造成用户体验灾难。

官方文档也明确提示,当前“操作手机”功能仍处技术预览阶段,离大规模稳定落地尚有距离。这种在“理想”与“现实”间的拉扯,反映出AI Agent现阶段仍处打磨期。

阿里的AI眼镜同样面临挑战。尽管一次性推出6款产品展现了高战略押注,但这类设备在国内市场缺乏明确基础。从形态看,夸克AI眼镜走“感知驱动 + Agent操控”的极简路线,追求“开机即用、对话即交互”,逻辑上具备颠覆手机潜力,但技术条件尚不成熟。

尤其当前AI眼镜在传感器、续航、算力集成方面仍有显著瓶颈。真正做到“识别环境 + 意图理解 + 动作执行”,至少需要设备具备稳定的多模态推理能力和完整的场景建模能力。这在2025年仍是高门槛命题。

更现实的问题是,用户是否真准备好将“交互权”交给AI?

豆包助手已具备在后台“自动操作”能力,可绕过用户主动点击,实现任务链闭环。但这引发了另一问题:数据权限、个人隐私、支付安全如何保障?在官方演示中,尽管支付环节保留人工确认机制,但AI Agent绕开应用、直接模拟交互操作的能力,仍存在滥用风险。尤其在安全边界未建立、系统权限标准不统一的阶段,这类“能力超纲”的AI产品可能成为监管灰区。

尽管如此,这波AI硬件热并非泡沫。

恰恰相反,它是大模型平台进化的必然阶段。当聊天机器人不再新鲜、应用用户增速放缓、模型能力难以被感知,只有通过重构交互形态,AI才能重新塑造“用户价值感知界面”。

硬件,不是终点,而是一次“打通入口-调用系统-采集数据-反馈模型”的平台级重构。

眼下,谷歌的AI眼镜项目已进入概念验证阶段;小米、理想分别在AI眼镜和车载AI助手上频频试水;OpenAI收购IO打造Agent硬件设备;字节通过豆包助手测试全链路系统整合;阿里则押注眼镜形态挑战手机主导权——全球范围内,科技公司正围绕“平台级AI入口”展开新一轮布局。

这不只是一场硬件更新战,而是一个新平台周期的启动信号。