人类大脑中蕴藏的进化密码尚未完全破译,而人工智能的未来发展或许正依赖于对此的深入探索。
最近,图灵奖获得者、Meta公司首席AI科学家杨立昆(Yann LeCun)被披露即将离职并创办新企业,其技术核心将围绕“世界模型”(World Models)展开,延续他多年来在AI认知层面的研究路径,这一动向立即引起了全球人工智能领域的广泛关注。
被誉为“AI教母”的李飞飞在个人社交平台上发表长篇论述,直接指出当前大语言模型(LLM)所面临的计算能力瓶颈与认知限制。她强调,人工智能的未来并不在于模型参数的无限扩大,而在于赋予机器“空间智能”(Spatial Intelligence)——这种人类与生俱来、在婴儿时期就开始发展的基础认知能力,才是实现通用人工智能(AGI)的关键路径。
与此同时,李飞飞创立的World Labs于11月13日发布了其首款产品Marble,该产品以多模态世界模型为核心驱动引擎,能够从单张图像、视频片段或文本描述中,生成具有持久性和一致性的三维数字孪生空间,从而为空间智能的构建提供了至关重要的三维认知基础。
当人工智能从纯粹的虚拟语境转向物理现实的维度时,现实世界的复杂约束与动态交互特性,正迫切需求一种革命性的认知模型来突破现有局限。
杨立昆在Meta任职长达12年,其技术理念与马克·扎克伯格主导的大语言模型发展路径存在明显分歧,这已不是秘密。
他曾公开表明:“大语言模型永远无法达到人类水平的推理能力。”这句话直接揭示了人工智能发展的核心矛盾:我们应该利用文本数据训练出更擅长对话的机器,还是让AI像人类婴儿一样,通过视觉观察来学习物理世界的规律?
长期以来,大语言模型受到数据质量和数据规模的制约,其认知边界始终被训练数据所构筑的“无形围墙”所限制。
数据偏见会固化模型的认知偏差,噪声数据则会直接降低推理的准确性,而信息的时效性滞后使得模型被困于“信息时差”之中,难以捕捉现实世界的动态变化。即使持续扩大数据规模,参数的简单堆砌也逐渐陷入“规模魔咒”,计算资源消耗与性能提升之间呈现出非线性失衡,边际效益持续下降。
更为根本的制约在于,大语言模型的认知局限于文本符号的线性关联,缺乏对物理世界进行三维空间建模的能力以及动态因果推理的能力。它无法精确映射现实世界的空间拓扑结构、物体属性与运动规律,也难以理解“行动-反馈”的实时交互逻辑,导致在跨场景实际应用时频繁出现认知断层。
例如,大语言模型无法仅通过文本描述精准还原一个立体场景,也不能基于现实世界的物理约束做出符合常识的决策。
这种依赖于文本数据喂养的模式,终究难以突破“符号牢笼”,无法复现人类从具体体验中提炼抽象知识的认知过程。
当人工智能需要从虚拟交互迈向物理世界的实际应用,从单一任务响应升级为复杂场景的自主决策时,纯文本驱动的模型架构已难以承载通用人工智能的进化需求。唯有跳出数据规模的竞赛,转向对世界本质的结构化理解,才能开启下一次技术飞跃。
“世界模型派”的研究者普遍认为,大语言模型存在根本性的局限。李飞飞指出,语言是人类为了交流而创造的抽象信号,自然界本身并不存在文字,人工智能如果仅依赖文本,将无法真正理解物理世界的规律,容易沦为“在黑暗中操纵文字的大师”。
杨立昆多次批评大语言模型仅仅是一个强大的文本数据库,缺乏对现实世界的理解能力。世界模型则致力于通过高维感知数据(如视频)进行直接建模,绕过语言的转换环节,在潜在空间内推演物理规律,并输出行动指令,从而实现对环境的内在理解与主动推理。
这就像人类婴儿不需要阅读百科全书就能理解重力——他们通过眼睛观察杯子坠落,用手触摸桌面来建立对物理世界的基本认知。这正是杨立昆推崇世界模型的关键所在:动态视频数据所蕴含的时空信息,远比抽象的文本更接近智能的本质。
例如,一个球撞倒积木的瞬间,既包含了材质硬度的信息,也隐藏着力学规律。而大语言模型从维基百科中学到的“牛顿定律”,不过是符号之间的统计关联。麻省理工学院的研究进一步证明,大脑在处理空间认知时会激活特定的神经网络——这种生物本能,正是当前纯文本人工智能所缺失的底层能力。
“世界模型”一词最早出现在2018年机器学习顶级会议NeurIPS上的一篇名为《Recurrent World Models Facilitate Policy Evolution》的文章中,该文章以认知科学中人类大脑的心智模型来类比世界模型,认为心智模型参与了人类的认知、推理和决策过程,其中最核心的能力在于反事实推理。
这种模型使人工智能具备预测与规划能力,例如理解物体破碎的原理、预判车辆转向的轨迹,从而为具身智能、自动驾驶以及人机协作机器人提供基础支撑。李飞飞将其概括为让“看见”升级为“推理”,让“感知”转化为“行动”,让“想象”落地为“创造”。
近年来,随着深度学习技术的不断进步和计算资源的日益丰富,世界模型的研究取得了显著进展。
例如,2019年DeepMind发表的MuZero算法、2022年杨立昆提出的JEPA表征模型、2024年的视频生成模型Sora和城市环境生成模型UrbanWord等,都推动了世界模型在不同领域的应用探索。
整体来看,世界模型是一种能够对现实世界环境进行仿真,并基于文本、图像、视频和运动等输入数据来生成视频、预测未来状态的生成式人工智能模型。它整合了多种语义信息,如视觉、听觉、语言等,通过机器学习、深度学习和其他数学模型来理解和预测现实世界中的现象、行为和因果关系。
简而言之,世界模型就像是人工智能系统对现实世界的“内在理解”和“心理模拟”。它不仅能够处理输入的数据,还能估计未直接感知的状态,并预测未来状态的变化。
这种模型使人工智能具备了类似人类的认知和推理能力,能够在一个虚拟的“脑海”中进行模拟和规划,从而更好地应对现实世界的复杂性。
区别于宽泛意义上的大语言模型,世界模型并非仅仅通过可获取的语言、图像及视频来理解现实场景,而是通过大量数据学习现实世界的物理规则,实施因果推理,从而预测并生成符合现实规律的未来。其终极目标在于,通过训练让人工智能适应现实世界而非理论世界,让AI进化为理解物理规律的“物理AI”。
世界模型具有三大核心特点:
第一,内在表征与预测能力。世界模型可以将高维的原始观测数据(如图像、声音、文本等)编码为低维的潜在状态,形成对世界的简洁而有效的表征。在此基础上,它能够预测在给定当前状态和动作的情况下,下一个时刻的状态分布,从而实现对未来事件的前瞻性预测。
第二,物理认知与因果关系理解。世界模型具备基本的物理认知能力,能够理解和模拟物理世界的规律,如重力、摩擦力、运动轨迹等。这使得它在处理与物理世界相关的问题时,能够提供更准确、更符合现实的预测和决策支持。
第三,反事实推理能力。世界模型不仅能够基于已有的数据进行预测,还能够进行假设性思考,即反事实推理。例如,它可以回答“如果环境条件改变,结果会怎样”这类问题,从而为复杂问题的解决提供更多的可能性和思路。
通常,一个完整的世界模型由状态表征模型、动态模型、决策模型三大组件构成。
状态表征模型的作用是将原始观测数据(如高维图像、传感器数据等)压缩为低维的潜在状态,保留关键信息,过滤噪声。常见的实现方法是使用变分自动编码器(VAE)等技术。这种压缩和表示方式使得模型能够更高效地处理和理解复杂的数据输入。
动态模型是世界模型的核心部分,用于预测给定当前潜在状态和动作时,环境的下一个状态分布。循环神经网络(RNN)、长短期记忆网络(LSTM)或随机状态空间模型(SSM)等通常被用来学习状态转移规律,从而构建对世界物理规律的隐式理解。
动态模型为智能体提供了一个虚拟的“沙盘”,使其能够在其中进行模拟和试验,而无需在真实环境中进行昂贵的试错。
基于状态预测,决策模型使用模型预测控制(MPC)或深度强化学习等方法,规划最优的动作序列以达成目标。它根据预测的未来状态来评估不同动作的价值或奖励信号,从而指导智能体在环境中采取合理的行动。
过去十年间,人工智能的每一次重大跃迁都源于输入方式的变革:文字带来了语言智能,图像催生了视觉智能。而如今,世界模型正在使人工智能理解现实世界——一个拥有时间、空间和因果关系的动态系统。
不仅人工智能领域的先驱们几乎一致认为,世界模型对于打造下一代人工智能至关重要,科技巨头们也将其视为人工智能发展进程中的关键节点。
近几个月来,多家科技公司相继发布了在世界模型领域的最新进展,凸显了这一赛道的快速升温。
谷歌DeepMind的Genie系列模型在一年半时间内从2D升级至Genie 3,该模型能够实时生成交互式3D环境。用户输入一句话,即可在720p分辨率下创建出可供自由探索的动态世界,场景细节能在长达一分钟的记忆中保持连贯。Genie 3项目的联席负责人Shlomi Fruchter表示,通过构建模拟真实世界的环境,可以用更具扩展性的方式训练人工智能,且“无需承担在现实世界中犯错的后果”。
Meta发布了代码世界模型(Code World Model),探索如何利用世界模型改进AI代码生成的性能。该模型不仅会编写代码,而且能像程序员一样进行思考。CWM通过5T tokens的执行轨迹数据训练,能够逐行模拟代码运行过程,从变量初始化到循环迭代,从函数调用到异常抛出,每一步状态变化都能精准预测,直接将AI编程从静态文本生成推向动态执行推理的新纪元。
与此同时,芯片巨头英伟达的首席执行官黄仁勋断言,公司的下一个主要增长阶段将来自“物理AI”,这些新模型将彻底改变机器人领域。英伟达正利用其Omniverse平台创建和运行此类仿真,以支持其向机器人领域的扩张。
特斯拉CEO埃隆·马斯克可以说是最早提出“世界模型”这一概念的人士之一。为了实现全球范围内所有路况的自动驾驶,特斯拉在感知与决策之间嵌入了一个AI模型,主要用于构建一个虚拟环境,以便进行自动驾驶能力的学习和验证。
这种世界模型方法,已经对现实世界产生了潜在的巨大影响。风险投资公司Lightspeed的合伙人兼投资者Moritz Baier-Lentz表示,无人机战争、新型机器人和比人类驾驶更安全的自动驾驶车辆都正从中受益。
优步前AI业务负责人Gary Marcus指出,无论当今的生成式人工智能接受多少数据训练,它们只能建立世界运作的概率模型。本质上,当前人工智能学习的是输入数据之间的关联性——无论是文字与图像,还是分子与其功能。这种对世界模糊的近似认知,似乎被混杂地编码在AI“大脑”中,既包含数据本身,又包含大量关于数据处理的庞杂规则,而这些规则又往往残缺不全或自相矛盾。
一个很好的例子是:一台运行1979年程序的雅达利2600游戏机,可以在国际象棋比赛中击败最先进的聊天机器人。这些聊天机器人往往会尝试非法走法,并很快忘记棋子的位置。本质上,当今基于Transformer架构的人工智能是在进行预测,而不是逻辑推理。尽管它们已经通过无数规则手册的训练,但仍然如此。
尽管世界模型展现出了巨大的潜力,但也面临诸多挑战。
首先,是技术和生态层面的挑战。构建世界模型需要大量的多模态数据,包括视频、音频、传感器数据等,而这些数据的收集、标注和整理往往成本高昂且耗时费力。同时,数据的质量和多样性也会直接影响模型的性能和泛化能力。
此外,世界模型也缺乏跨平台协同的工程体系配套。目前而言,世界模型没有统一标准,缺乏规范的训练语料、可比的评价指标与公共实验平台,企业往往各自为战。如果无法实现跨模型的可验证性与可复用性,世界模型的生态就很难真正形成规模化创新。
其次,是认知层面的挑战。世界模型的强大之处,在于它可以在内部进行推演与预测,但这也让它的决策过程愈发难以被人类理解。试想一下,当一个模型能在潜在空间中模拟成千上万种结果时,我们还能否追踪它的决策逻辑?
从自动驾驶的责任归属,到自主智能体是否可能产生目标漂移(Goal Drift),进而延伸出AI的目标是否仍与人类一致的问题。一旦AI从被动执行转为主动学习,安全与伦理的议题,也随之从技术层面上升到价值层面。
第三,是产业和伦理层面的挑战。世界模型的进一步发展,势必重新定义产业边界。人工智能不仅可能重构交通、制造、医疗、金融等领域的决策体系,也将催动算法主权、智能监管等制度议题。
中美两国虽然在发展路径上各有侧重,美国凭借资本优势与开放生态快速试错,中国依托产业链协同推进落地,但双方都面临同一问题:当世界模型真正嵌入社会运行系统时,它将以何种规则参与人类世界?
就目前而言,世界模型所依托的世界,仍然建立在人类提供的语料、规则与经验之上。但AI的持续进化,有赖于人类持续地在技术、伦理与治理层面为智能设定边界,这会是一项长期的考验。
必须承认,目前世界模型的研究仍处于早期阶段。相较于适合快速迭代、短期内易于落地的视觉-语言-动作(VLA)路线,世界模型代表了更底层的认知方式,强调物理规律和空间理解力,适合长期演进。
尽管挑战显著,但全球已在这一赛道展开竞争。在这条平行赛道上,一场定义AI下一个十年的角逐已经鸣枪起跑,AI正在努力超越文本边界,尝试理解并重塑我们所在的物理世界。
可以肯定的是,世界模型的意义,绝对不是让人工智能更像人,而是让人类在AI的协同下,走向更远的未来。
本文由主机测评网于2026-01-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120618.html