在ChatGPT诞生三周年之际,OpenAI内部并未举办庆祝活动,而是发布了一封红色警报,标志着人工智能领域的竞争已进入白热化阶段。面对谷歌Gemini 3的强劲表现,OpenAI迅速推出GPT 5.2,投入更多资源在多项指标上实现反超。然而,经过三年的发展,各大模型之间的性能差距和范式差异逐渐缩小,业界开始质疑大模型发展是否触及天花板。尽管如此,仍有许多人对AGI的到来充满信心,产业内争论与分化日益加剧。
站在2025年的尾声回望来路,从DeepSeek的横空出世,到GPT-4o带动吉卜力动画风格的风靡,再到Sora2与山姆·奥特曼同框引发热议,以及谷歌Nano Banana生图功能中机器猫形象的广泛传播,这一年技术迭代的速度令人恍如隔世——一项年初的新技术,到年末已仿佛成为遥远的记忆。
展望2026年,我们既感受到大模型智能瓶颈与投资回报不确定性带来的焦虑,也目睹更多非共识观点的涌现,同时看到从业者的坚守与信仰。多个方向正酝酿突破,更多期待与探索正扑面而来。
自ChatGPT问世以来,业界主流普遍相信:只要不断增加算力、扩充数据、堆叠参数,机器的智能就会像物理定律般增长,直至触及AGI的奇点。
然而,随着近两年大模型智能提升速度放缓,数据枯竭论等质疑声四起,Scaling Law究竟是通往神坛的阶梯,还是人类在数学与统计学迷宫中建造的注定无法封顶的巴别塔?Gary Marcus认为,大模型并未真正理解世界,只是在巨量语料中拟合语言相关性,而真正的智能应包含抽象化、因果建模、符号推理与长期记忆。近日,伊利亚在播客中表示,规模法则正接近极限,强化学习虽消耗巨大算力,却并非真正的扩展;未来的突破将来自更优的学习方式,而非简单扩展规模。
伊利亚的观点有其合理性,因为真正需要的不是规模,而是解决问题的好方法。但在底层架构缺乏突破性创新、训练方法尚未迎来颠覆式变革的背景下,规模法则仍是一条可行路径。从工程与产业逻辑看,Scaling Law依然是当前最可靠、最实用的增长路径。其优势在于:第一,能力提升可预测,通过增加训练FLOPs和优化数据等方式可预判模型能力;第二,产业投入可评估,算力、算法、数据等要素可按线性扩展;第三,人才与工程体系无需推翻重来,可在原架构基础上通过工程化、算法优化等方式持续迭代。
11月以来,Gemini 3发布后的优异表现,以及DeepSeek V3.2的研究成果,均印证了规模法则在现阶段依然有效。这也为美国轰轰烈烈的AI新基建增添了底气。美国当前规划建设的大型数据中心项目总装机容量已突破45吉瓦(GW),这场建设热潮预计将吸引超2.5万亿美元投资。针对未来算力需求,黄仁勋进一步提出三个Scaling Law观点,认为在预训练、后训练强化学习以及推理过程中均存在规模法则,从而支撑算力持续增长。
黄仁勋在Bg 2 Pod访谈中提出的AI Scaling Law新观点
数据是当前大模型进化中最紧迫的难题。算力暂不构成主要瓶颈,参数规模可继续放大,但高质量可用数据持续稀缺。业界正探索一套系统性的扩数据方法。当前共识是:并非简单寻找更多互联网语料,而是通过合成数据、推理过程数据、强化学习数据、环境反馈数据、多模态数据与具身数据等方式,构建可放大的数据生成体系。目标是从被动收集数据转向构建可工程化、可控制、可规模化生产的能力,并通过更优学习算法提升效率。
可预见的未来将是New Scaling Law的时代,它不再仅仅是算力的简单堆砌,而是向数量扩大与质量提升两个方向扩展。加之算力资源的充沛支持,研究员们得以用大量资源探索算法和架构的更多优化路径,从而有望带来底层能力的突破。而AGI很可能来自Scaling与结构性创新的结合,包括世界模型、新型高效训练架构、具身智能、长期记忆机制、工具化执行链路以及更高水平的对齐系统等。
谷歌Gemini、OpenAI Sora等多模态模型已能出色地总结文字内容,并提炼生成栩栩如生的PPT、播客内容和视频动画,实现对内容的深度理解,堪称多模态领域的ChatGPT时刻。若类比生命进化过程,语言本是高级智能形态,而本轮大模型的突破恰恰从语言开始,与生命进化路径相反。未来,多模态技术的进步可从另一方向探索智能进化,极可能成为推动AI智能水平非线性跃升的关键因素之一。
回顾生物进化史可知,智能并非突然出现的抽象能力,而是伴随感知与行动系统复杂化逐步涌现的结果。其中,视觉的出现被广泛视为关键分水岭。早期生命形态中,光敏细胞仅能区分明暗,而成像视觉的出现使生物能够识别空间结构、物体边界与运动关系。这一变化直接放大了生物可感知与可行动的世界范围,捕食与躲避行为的复杂度随之急剧上升,神经系统被迫进化出更强的处理与决策能力。从结果看,视觉并非仅增加一种感觉,而是触发了认知能力与智能水平的阶段性跃迁。
5亿多年前的寒武纪,“眼睛”器官开始出现,动物进化速度大幅提升
长期以来,大语言模型主要在文本空间中学习世界,其理解并非真正理解,感知亦非真正感知,本质上源于语言对现实的高度压缩与抽象。尽管这种方式已展现出惊人的语言推理与知识整合能力,但它始终面对一个根本性限制:模型所接触的世界是经过人类过滤、描述和重构的二手世界。一个生动的比喻是:虽然大模型能绘声绘色地描述红酒的香气与味道,但大模型从未尝过一口红酒,也未曾打翻过一个酒杯。
多模态模型的进步,有机会在一定程度上改变这一前提。图像、视频、语音等模态并非对世界的解释,而是对世界状态的直接投射。它们天然包含空间连续性、时间演化以及隐含的物理约束,如物体恒常性、遮挡关系、运动轨迹和因果顺序等。这些信息在文本中难以完整表达,却在多模态数据中以被动但强制的方式存在。模型在学习多模态时,不得不面对一个更接近真实世界的结构性约束空间,为形成更稳健的世界模型提供了可能。
更重要的是,多模态为人工智能打开了“感知—决策—行动”闭环技术通道的可能性。当多模态感知与工具使用、机器人控制、软件操作等相结合时,智能将不再局限于回答问题、生成内容,而可以在环境中尝试、修正和规划,从而通过反馈持续优化,实现智能跃升。
对大模型行业而言,研究驱动始终是核心范式。大量实验在研发中不可或缺,以小团队为单位并行推进多个方向实验,一直是OpenAI等前沿机构的高效组织方式。这种带有赛马机制的模式,对于路线仍在不断迭代变化的大模型领域非常契合。预计新的一年,在底层架构、训练范式、评测方法、长期记忆机制、Agent等多个领域,都将诞生更多突破性成果。
近两年,全球涌现了一批非共识且极具技术个性的实验室。包括伊利亚主打安全的SSI,已吸引30亿美元投资,聚焦安全超智能;原OpenAI CTO Mira创立的Thinking Machines Lab,专注于解决AI系统可靠性、可定制性及多模态协作等问题,近日推出首款产品Tinker,可帮助开发者和研究人员微调语言模型。在物理世界与智能体结合方向上,李飞飞创立的World Labs专注于空间智能,旨在让AI模型理解三维环境与物理规律,试图填补大语言模型在物理交互层面的空白。杨立昆从Meta离职后,将投身专注高级机器智能的AI初创公司AMI,目标是构建能理解物理世界、具备持久记忆、推理并规划复杂动作序列的系统。在智能体方向上,欧洲的H Company认为,若AI不能持续解决复杂现实问题,再流畅的对话能力也只是表象智能,因此重点研发能持续解决复杂任务的认知系统,希望打造能像人一样操作工具、执行复杂工作流的超级Agent。
在底层架构与训练范式创新方面,行业内也出现了诸多值得期待的研究。日本的Sakana AI,是明确站在主流大模型Scaling Law路线对立面的一家实验室,由多位前Google DeepMind核心研究员创立,包括Transformer论文主要作者之一的Llion Jones。他们推崇演化与群体智能,探索降低算力依赖的高效路径。一是演化式模型(Evolutionary AI),不追求一次性训练出完美模型,而是通过变异、选择和组合,让模型在动态过程中不断进化。二是群体智能与多模型协作,将多个能力互补、结构不同的模型视为一个生态系统,通过协作而非单体最优,产生更强的整体智能。具有麻省理工学院背景的Liquid AI则开发了液体神经网络架构,是对神经网络底层运作方式的重构。他们认为真正通用、鲁棒的智能系统应随环境而变,而非像当前预训练模型那样一次训练、终身冻结。“液体”一词即寓意网络并非固态结构,而是可连续演化的动态系统。在长期记忆方面,谷歌提出嵌套学习(Nested Learning)概念,试图从根源上解决灾难性遗忘问题。类比人类大脑中短期记忆(海马体)与长期记忆(大脑皮层)的协同机制,谷歌设计了一套快慢系统:模型内部被设计成不同功能模块,部分专门负责快速适应当前新任务,部分则通过长期记忆巩固通用知识。
评测牵引正日益成为驱动大模型研发的重要范式。当前,静态刷榜导致的数据污染、人类标注昂贵且难以扩展、以及模型能力在某些维度上开始超越普通评估者,均给大模型评测带来重大挑战。行业内正探索更多新型评测方法。例如,在Agent与长期任务评测方面,学界和工业界正围绕Agent能力构建需跨多步、跨工具、跨状态管理的评测体系,包括DeepMind的复杂任务规划环境、OpenAI内部的多工具协作任务,以及学术界的SWE-bench、WebArena、AgentBench等。这些评测不再关心模型是否答对一道题,而是考察其在长时间尺度内完成目标、纠错、更新策略的能力,真实暴露规划与记忆短板。又如,动态、交互式与仿真环境评测,代表性探索包括基于游戏、模拟世界或数字孪生环境的评测,模型的每一步决策都会改变后续状态,错误具有累积效应。当然,评测挑战或许是一个长期难题,因为评测指标本身易陷入古德哈特定律的陷阱——当一个指标成为目标时,它就不再是一个好指标。
大模型评测体系框架示意
机器人的物理世界数据极度匮乏,尤其是复杂的灵巧操作,真机采集一条数据可能耗时数分钟,成本在1-10美元;而仿真生成一条数据的边际成本趋近于零,且能并行运行数万个实例。因此,在早中期研发、可控环境任务范围内,仿真数据将成为绝对主流,Sim-to-Real的鸿沟正被生成式AI填平。
在规模与覆盖面上,真机采集的瓶颈并非采不到,而是采得慢、采得贵、采得不够广。而仿真能以指数级低成本优势覆盖极端光照、遮挡、碰撞、稀有故障、不同摩擦、质量、关节间隙等长尾场景。在可控与可复现方面,物理AI研发需要严谨的回归测试和安全验证,仿真能将变量锁定,把问题定位从玄学转变为可诊断的问题。在跨本体迁移上,现实数据常被绑定在特定硬件本体、传感器与标定上,而仿真天然适合多本体、多观测、多动作空间的统一生成与对齐,这一点在多机器人和多任务训练范式中尤为关键。对此,产学研界已有诸多研究和实践。例如,上海人工智能实验室构建的合成数据集InternData-A1,包含超过63万条轨迹、总计7433小时数据,涵盖4种具身形态、18项技能、70项任务及227个场景,涉及刚性、铰接、可变形及流体物体的操控。采用与π0相同的架构,完全在InternData-A1上预训练的模型,在49项仿真任务、5项真实世界任务以及4项长时程灵巧操作任务上的表现与官方π0模型相当,验证了仿真数据的有效性。银河通用发布了灵巧手功能性抓取合成大数据集DexonomySi,包含超950万条高质量抓取姿态,覆盖超1万个物体、31种常用抓握类型,涵盖人类抓握分类法中约94%的类型。依托这一数据范式,自研了面向零售行业的端到端具身大模型GroceryVLA,并实现了在复杂货架上机器人双手自主取物。谷歌的Genie 3,让模型学会预测下一帧画面,为机器人和自动驾驶汽车训练提供了无限可能的模拟环境。
当然,不可否认,真机派的担忧同样成立:仿真永远存在建模误差,如接触、材料、软体、磨损、传感器时序与噪声等,真实世界的意外组合更是无穷无尽。
需要真机数据的重点领域示意
因此,在物理AI的早中期研发中,仿真能以极低成本提供覆盖长尾的多模态经验,支撑策略成型、泛化训练与系统评测等,承担90%以上的数据与验证工作。而真机数据则集中用于物理锚定、残差校准与产品级验收等。这一“仿真主供给、真机强纠偏”的范式,已从学术论文走向NVIDIA、DeepMind等公司的工业化实践,仿真不再是演示工具,而正成为物理AI的数据基础设施。
过去几年,AI for Science(AI4S)最具象征意义的成果无疑是AlphaFold。它在蛋白质结构预测上的突破,让人们对基础学科研究范式的重塑充满希望。但与此同时,一个普遍的质疑也随之而来:这些突破离产业仍然太远。从药物研发到材料工程,现实世界的研发周期、验证成本和组织复杂度,并未因为某一个模型而发生根本性改变。
那么,2026年是否会成为一个转折点?答案并非简单的“是”或“否”。但从科研前沿、产业实践和国家政策三条线索同时观察,一个清晰的信号正浮现:AI for Science正在从模型驱动的学术突破,转向系统工程化的科研生产力。这类转变,可能是行业被真正改变的前兆。
AI for Science迟迟难以影响产业,核心障碍并不在预测不够准,而在验证太贵、太慢,以及太难复制。正因如此,一个极具信号意义的变化正在发生——AI正被直接嵌入实验系统本身。谷歌DeepMind将于2026年在英国建立基于AI的自动化科研实验室,首批研究方向包括超导体、半导体材料等关键科学领域,这是AI4S从算法走向实验物理试验平台的重要标志。该实验室并非简单的机器人实验,而是由AI负责假设生成与实验编排、机器人系统执行实验、数据自动回流,用于模型更新和策略优化,形成可复现、可规模化的闭环。这一步的意义在于,它第一次让AI4S从建议者变成执行者,打通实验闭环,使材料科学、化学工程和药物筛选等领域具备了被真正加速、甚至重构的条件。
AI与人工研发的各阶段差异 《AI-Driven Automation Can Become the Foundation of Next-Era Science of Science Research》
另一个不可忽视的变化来自国家层面。美国近期明确将AI for Science上升为国家战略重点,特朗普政府在2025年底签署了《启动创世纪任务》行政令,该计划由美国能源部(DOE)牵头,目标是建立全国性的AI科学平台,通过整合联邦科研数据、超算资源和AI模型,实现科学研究的加速和跨学科突破。该计划聚焦先进制造业、生物技术、关键材料、核裂变与核聚变能源、量子信息科学、半导体与微电子领域。这将有望打通美国联邦政府几十年积累的庞大科学数据集,包括能源、生物、核物理等内部绝密数据,并将其与国家实验室的超算资源结合,专门用于训练科学基础模型。这意味着获得许可的美国本土企业可能首次获得海量的高质量科学数据来训练模型,解决了AI4S高质量数据匮乏的最大痛点。
如果说2026年的AI4S可以实现大规模商业落地、具备清晰ROI、全面替代现有研发模式,那么大概率还为时尚早。但如果定义为某些领域的研发周期可能出现数量级压缩、自动化实验与AI workflow成为头部机构的标准配置、科研组织开始围绕AI agents重构分工,那么2026年很可能正是这一转折开始显现的年份。
在过去的互联网发展叙事中,几乎都遵循着同一条路径:从用户规模扩大到网络价值上升,再到粘性增强和形成壁垒,搜索、电商、社交和短视频等无一例外。然而,令人意外的是,自2022年大模型能力实现跃迁以来,尽管AI的智能突飞猛进,但类似移动互联网时代的网络效应始终没有真正出现。ChatGPT用户量已接近10亿周活,但模型并不会因此自动变得更强,用户之间的连接关系也很弱,并未形成类似电商的供给-需求双边网络或社交网络那样的壁垒。这构成了AI时代的一个难题:AI能力已很强,但平台效应极弱,梅特卡夫定律在大模型领域尚未见效。
在“裸模型”阶段,大模型本身并不具备孕育网络效应的天然条件。传统互联网产品之所以能形成网络效应,本质上依赖于使用行为本身就是反馈和优化的信号。但大模型完全不同:绝大多数用户与模型的交互是一次性的、私有的,既不能直接回流训练,也难以在不同用户间复用。即便可以收集部分数据,也必须面对隐私、版权、分布偏移与对齐风险等复杂问题。更深层的原因在于,大模型当前创造的价值主要来源于模型对个体的能力提升,而非用户之间的关系密度。大模型很强,但它解决的是“帮人做好一件事”,而非用户之间是否因这个系统产生新的协作、交易或社会连接。在这种结构下,AI是生产力工具,还不是平台。
正是在这样的背景下,模型与应用一体化成为可能的破局点。当模型开始拥有稳定身份、长期记忆,并持续参与用户的工作、决策与协作过程时,AI才第一次具备了成为平台的能力。这种延伸正向着两个方向展开:
一是模型接入更多应用,更像是当前互联网平台的形态,更多是“+AI”的功能。典型如GPT最新推出的智能购物功能,通过询问用户需求和喜好,结合用户历史对话,嵌入商品推荐和电商导流。目前的初步探索更像研究型购物体验,尚无法满足用户“逛”的需求。还有GPT推出的群聊功能,希望团队能在同一对话内持续积累知识沉淀,加强协作联系。再有就是Sora2在视频社交方面的尝试,一度网络上出现了大量与山姆·奥特曼互动的视频。虽然后续留存数据不佳,但其推出的Cameo个人数字形象功能,允许用户创建自己的数字分身并与好友同台出演视频,也是希望由此建立社交关系链和用户画像体系。
GPT新近推出的智能购物电商功能
另一种则可能是更具颠覆性的智联网新形态,即“AI+”。目前很多大模型内置的Agent和开发平台是这一模式的雏形,但还远不止于此。当每个个人、团队乃至组织都拥有自己的Agent,这些Agent可以彼此调用、分工、协作,网络的基本节点就不再只是人,而更多是具备行动能力的智能体。随着使用规模扩大,Agent网络中可调用的能力、工具和经验不断丰富,单个Agent的实际效能也随之提升。这种“用得越多,整体越强”的正反馈,可能会是AI时代最原生的网络效应。
未来的Agent网络效应将呈现多种形式:一是交易型网络,这可能是Agent协作的新双边市场。当用户的私人助理Agent接收到“去深圳出差”的行程指令时,它不会去下载携程App,而是直接在云端呼叫差旅平台的票务Agent、酒店预订Agent以及网约车出行Agent。在供给端,接入该协议标准的服务型Agent越多,用户Agent能解决的问题就越复杂、越闭环,体验越好;在需求端,拥有私人Agent的用户基数越大,服务商就会开发出更多的服务型Agent接入该网络,从而形成新的AI双边市场。二是知识型网络,假设一名资深工程师教会了模型处理一种复杂问题并形成技能,这一技能经过脱敏处理后,可发布在模型的技能库中。下一秒,地球另一端的另一位工程师遇到同样问题时,模型就能立刻调用这一技能。用户越多,模型处理过的长尾场景越多,模型的技能经验值就越高。这种由千万用户在真实场景中打磨出的隐性知识库,会让大模型越用越聪明,并构建极高的数据和经验壁垒。三是工作流型网络。复杂任务一旦被反复执行,就会不断被拆解、模块化和标准化,最终形成成熟的AI工作流。当这些流程被更多人使用,它们本身就会变得更加可靠、高效,新用户的进入门槛也随之降低。网络效应不再体现在“人多热闹”,而体现在生产范式的持续进化。在此基础上,多边市场形态也会逐渐浮现。用户、专业Agent、工具、数据与知识源共同构成一个由模型统一调度的复杂网络。以智能购物为例,AI不再只是推荐商品,而是贯穿选品、比价、谈判、定制和供应链反馈的完整链条,甚至反向影响供给结构。这类网络的价值不在于单次交易,而在于系统性优化。四是社交型网络。AI不再只是群聊里一个被动@的对象,而是成为社交网络的超级连接器。例如,在一个大型集团企业中,AI持续分析组织内的文档和项目进度。当员工A提出一个难题时,AI能主动介入@A:“虽然我不知道答案,但我检测到群里的B可能了解这个问题,建议你们沟通。”这时可启动与B的Agent沟通以获取授权信息,或直接找到B来沟通,从而扩大协作网络。
模型与应用一体化的真正意义,很可能不是做一个超级App,而是构建一个以模型为认知核心、以应用为关系容器、以Agent为基本节点的智能网络,这才是AI时代可能出现的新型平台。
大模型的潜在网络效应
当AI Coding逼近普适生产力之后,软件不再是一种工业化产品,而将变成高度个性化、情境化、即时化的工具形态。
AI界大V安德烈·卡帕斯关于软件3.0时代的论断,揭示了软件开发正经历自1940年软件1.0以来最深刻的范式转移。今年3月,Anthropic首席执行官Dario Amodei表示,未来3到6个月,AI将编写90%的代码,而12个月内,几乎所有的代码都可能由AI生成。美团创始人王兴曾披露,美团内部已有52%的代码由AI生成,公司90%的工程师已频繁使用AI工具,部分团队甚至依赖AI完成90%以上的代码编写。腾讯发布的《2025腾讯研发大数据报告》透露,腾讯月均新增代码3.25亿行,每月完成需求37万个,构建交付2520万次,超过90%的腾讯工程师使用AI编程助手CodeBuddy辅助编程,50%的新增代码由AI辅助生成。
Anthropic的工程师和研究人员最常使用Claude修复代码错误和了解代码库
软件生产的核心瓶颈从编码能力转移到了问题定义能力,自然语言、示例、上下文描述正成为主要的编程接口,甚至出现了“vibe coder”的新称谓。软件不再是专业工程师的专属产物,而是一种可随需生成的表达介质,就像PPT、Excel、Notion页面一样。
编程供给侧的充裕将彻底激活需求侧的长尾市场。由于构建软件应用的成本极低,软件将具备千人千面的生成能力,真正实现从“人适应软件”到“软件适应人”的范式转移,软件个性化和情景化成为可能。
这种转变意味着,那些曾经因市场规模过小而无法被商业软件覆盖的细碎需求,将迎来专属解决方案。一个人可以根据个人购物习惯生成家庭物品和购买管理工具,还可为自己定制一个每天自动汇总特定信息的应用;一名备考学生可获得针对其薄弱知识点定制的互动复习系统;一个活动组织者可为一次讲座临时搭建报名和统计系统;一位装修业主可生成报价比对工具,瞬间拉齐5家公司不同格式的报价单并精准识别隐形差价;一位骨折康复者可生成一款体感小游戏,将枯燥的术后复健动作转化为操控飞船避障的趣味互动。
一部分新生成的工具,因解决的是许多人共有的问题,会自然地被分享、复用,甚至形成小规模生态。包括Hugging Face Spaces上大量由个人搭建的小应用,Chrome插件中越来越多功能微小但很有用的工具,其实都体现了这种微软件思想。只是之前门槛太高,人们只有需求而缺乏软件编程能力。
在Vibe Coding的助力下,我们正迈入一个软件平权的新阶段。未来,编写软件会像写文章、发朋友圈一样简单自然。软件将成为人类表达思想、解决问题、感知世界的一种基本媒介。在这个新时代,核心竞争力不再是掌握复杂的语法或架构模式,而是对他人的共情能力、对问题的定义能力,乃至天马行空的想象力。
过去两年,AI在各行业的落地经历了一次明显的阶段跃迁。从早期的概念验证(PoC)和零散试点,逐步进入核心业务流程与一线生产系统。与此同时,一个变化也在同步发生:企业和投资人对AI的关注点,正从“技术是否先进”迅速转向“是否真正创造了可衡量的业务价值”。ROI(投资回报率)与性价比,正在成为AI行业应用的第一性问题。
麦肯锡最新发布的《2025年AI现状报告》揭示,更多企业开始使用AI,但真正的规模化部署依然稀少。至少在一个职能中常态化使用AI的企业比例,从去年的78%上升至88%。但在企业层面,多数机构仍停留在探索或试点阶段,尚未将其深度嵌入工作流和业务流程,距离释放企业级价值仍有不小差距,AI改善整体利润的案例仍较少见,AI高绩效企业仅占6%。
麦肯锡调研:在各职能中,智能体应用进入规模化阶段的受访者比例均未超过10%
OpenAI近日发布的企业级AI现状报告,对近100家企业的9000名员工开展调研后发现,过去一年,ChatGPT Enterprise的每周消息量增加了约8倍,员工人均消息发送量提升了30%,组织平均推理token消耗量增长约320倍。75%的员工表示在工作中使用AI提升了工作速度或产出质量,员工平均每日节省40–60分钟,而重度用户每周可节省超过10小时。这些数据虽然展示了使用量的增长,却也反映了一个现实:未来还需要更多有力的数据来说明AI创造的经济效益。
背后的原因在于,企业在早期部署阶段,AI更多以Copilot形态存在,承担信息检索、文本生成、简单问答等边缘性任务。这类应用部署快、风险低,但对组织整体效率和成本结构的影响有限,因此很难形成清晰的价值闭环。而当前正在发生的积极变化是,AI开始逐步深入行业流程的中后段。下一步,可验证的收益将发生在生产效率提升、客户响应速度加快、营销指标改善、研发生产力提高等方面,未来潜在的深度收益将来自流程再造、智能体协同、个性化服务、预测决策与供应链智能化等领域。
由此,我们正告别以“工时”为单位的生产力时代,迈向以“决策”为单位的创造力时代。当AI应用进一步深入,未来的最小作战单元,可能就是一个拥有深厚行业Know-how的人类专家,带着十几个硅基数字员工,像一家微型公司一样独立交付结果。当“一个人+N个智能体”成为工作新常态,企业的管理逻辑、绩效考核甚至人才定义,都面临前所未有的重构。管理的对象,从人变成了人和机器共同构成的生产系统。传统以工时、过程、层级为核心的管理逻辑将逐步失效,取而代之的是以结果交付、质量稳定性和风险控制为中心的新范式。
在消费电子的历史长河中,1000万台从来不是一个简单的数字,而是一道划分“极客玩具”与“大众消费品”的命运分水岭。如今,目光聚焦到了AI眼镜身上。随着Meta Ray-Ban等头部产品销量激增,权威机构预测2026年单品牌有望冲击1000万台出货量。值得期待的还有谷歌XR生态,包括三星Galaxy XR、中国的XREAL Project Aura等,将以“安卓+Gemini”的组合拳推进安卓XR生态的进化。巴克莱研究的分析师预测,AI智能眼镜这一新兴产业将在不久的将来带来颠覆性变革,预计2035年销量将达到6000万副。雷朋眼镜制造商依视路公司也于近期表示,将提前实施年产能1000万件可穿戴设备的生产计划,以满足超出预期的强劲需求。这不仅意味着硬件形态的成熟,更预示着继PC、手机之后,有望迎来第三次计算平台的迁徙——从指尖互联走向感官互联。
巴克莱研究预测智能眼镜销量2025-2035
硬件“做减法”是这一波AI眼镜成功的关键。过去的AR和VR眼镜一定程度上陷入了“必须有完美屏幕”的误区,导致产品重达数百克且续航仅1-2小时,用户无法全天佩戴。Meta的成功在于它敏锐地捕捉到了当前的甜蜜点:放弃高成本的显示模组,成功将重量控制在接近普通眼镜的50克以内,并结合大模型的多模态能力,让眼镜首先成为一个合格的穿戴设备和拍照摄像设备,其次才是一个计算设备。这种“无屏胜有屏”的策略极大地降低了制造难度和用户购买门槛。
当AI眼镜成为新入口,软件生态将可能发生翻天覆地的变化。在手机上,我们的操作逻辑是以“应用”为中心;而在眼镜上,操作逻辑将转变为以“意图”为中心。用户只需发出指令(如“帮我叫车回家”),眼镜背后的Agent将自动调用底层网约车服务接口完成服务。这意味着,图形用户界面(GUI)将退居二线,自然语言交互和多模态感知将成为主导。“技能商店”可能会取代应用商店,未来的开发者不再是开发一个独立的App,而是开发一个个技能插件(Skill)。例如,星巴克不再需要开发眼镜版App,只需提供一个点单Skill供通用的AI助理调用。眼镜配备的摄像头将产生海量前所未有的数据——用户看到了什么、关注了什么,都可以被数字化。这些数据一方面可为机器人和空间智能研发提供海量的第一视角训练数据;另一方面,可能催生全新的推荐算法和广告模式,如当你盯着一家餐厅招牌超过3秒,眼镜便会显示大众点评的评分标签。当然,在AI眼镜领域,个人隐私和脱敏,以及相关的法律和伦理规范约束将更为重要。
或许借由AI眼镜,我们可以告别“低头族”,通过一副轻便的眼镜将强大的AI算力戴在身上。这不仅是硬件形态的革命,更可能是人类生活方式的回归——让科技退回到背景之中,让人们重新抬起头,更加关注真实的世界,同时拥有更强的感知和智能。
AI能力的提升以及AGI目标的日益逼近,让安全成为更多人关注的重点。从最为夸张的“AI毁灭人类”论调,到日常应用中的伦理和价值问题,全社会对AI安全的关注度日益提升。根据墨尔本大学与毕马威联合发布的《人工智能信任度、态度与应用:2025全球研究报告》对47个国家48000人的调研显示:尽管66%受访者已在经常使用AI,但超半数(58%)仍认为其不可信赖。相比2022年ChatGPT发布前在17国开展的同类研究,如今的AI普及率已显著提升,但公众信任度反而呈现下降趋势,且忧虑情绪随之上升。
毕马威调研“Trust and acceptance of AI systems”
在此背景下,AI安全技术的研发和相关规则的建立显得更为重要。两个关键词或许会勾勒出明年的重点:安全算力与AI治理委员会。
安全算力:AI安全相关技术成为业界热点,将有超过10%的算力投入到安全领域。这里的安全主要涵盖安全评估、对齐实验、红队测试等,与纯能力提升的预训练、微调和后训练强化学习等区分开来。两年前,OpenAI曾宣布成立Superalignment团队,明确表示将在未来四年内将其算力的20%用于超级智能对齐研究。但山姆·奥特曼并未信守承诺,这也是导致伊利亚出走的重要原因之一。而伊利亚成立的新公司名为SSI(Safe Superintelligence),核心即着眼于超人工智能安全的研究,两年来已融资30亿美元,估值320亿美元。不少安全研究者主张,随着能力增长,应当维持一个恒定且足够高的算力份额长期投入安全研究、监测和缓解安全问题,而非能力上去了再补安全。美国与欧盟的法规提案都将高风险模型的系统性测试、评估和监控写入强制义务,这也隐含着安全算力将形成刚性成本。而且,随着模型越来越具备长程任务能力,安全评估不再是跑几个benchmark,而要跑多步agent任务、模拟长期行为等,这对算力需求将是指数级放大的。
AI治理委员会:越来越多的企业将建立类似AI安全和伦理委员会的机构。这个机构不再是一个简单的研究和对外宣传、沟通的组织,而是深度嵌入从基础大模型到AI产品研发的全流程。许多大公司已建立起相对完整的安全机制:如Google DeepMind内部有专门的Responsibility & Safety团队,参与从模型训练到评估部署的全过程,在模型训练前设定能力边界,评估生物安全、网络攻击等方面的危险能力;训练后还需对模型进行系统性红队测试和安全评估,评估结果达标的才能上线到Gemini、AI搜索等产品。微软早在2017年就成立了伦理委员会Aether Committee,涵盖安全、偏见、公平、可靠性、人机交互等领域,其结论被纳入微软工程体系的必选流程,如Office、Copilot、Azure AI等。Anthropic则成立了长期利益信托(LTBT)机制,由5位财务中立成员构成的独立机构,旨在确保公司治理始终与研发和维护先进AI系统、持久造福人类的使命一致。Anthropic致力于推动Constitutional AI(宪法AI),将安全直接嵌入训练数据和奖励模型中。
AI安全与负责任已经不再是附加在模型研发和应用之上的道德选项,而是正演变为与算力、算法、数据同等重要的基础性要素。一方面,公众信任度的下降与忧虑情绪的上升,正在反向塑造技术路线和商业决策。没有可信安全机制的模型,将难以进入关键行业和主流市场。另一方面,监管框架的逐步成型,将使安全评估、对齐实验和持续监控从最佳实践变成准入门槛。在这样的背景下,安全算力和AI治理委员会并非短期应对舆论或监管的权宜之计,而是大模型时代的长期制度安排。
*特别致谢腾讯研究院产业研究中心多位同学的讨论和启发
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260224979.html