当前位置:首页 > 科技资讯 > 正文

智源研究院登Nature正刊:多模态大模型“悟界·Emu”再创佳绩

智东西2月1日报道,北京时间1月29日,北京智源人工智能研究院推出的多模态大模型“悟界·Emu”在Nature正刊发表,成为中国继DeepSeek之后第二个达成此成就的大模型团队研究成果,同时也是中国首篇围绕多模态大模型路线的Nature论文。

智源研究院登Nature正刊:多模态大模型“悟界·Emu”再创佳绩 智源研究院 多模态大模型 Nature正刊 具身智能 第1张

Nature官网截图

Nature编辑点评道:“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。”

智源研究院登Nature正刊:多模态大模型“悟界·Emu”再创佳绩 智源研究院 多模态大模型 Nature正刊 具身智能 第2张

Emu3有望推动具身智能等方向发展

“悟界·Emu3”模型由智源研究院于2024年10月推出。无论在感知还是生成方面,Emu3均达到了于特定任务期间模型相媲美的性能。该模型能够完成文本到图像生成、文本到视频生成、未来预测、视觉语言理解、交错图像文本生成以及具身操作等多方面任务,这一成果对于确立自回归成为生成式AI统一路线具有重大意义。

智源研究院登Nature正刊:多模态大模型“悟界·Emu”再创佳绩 智源研究院 多模态大模型 Nature正刊 具身智能 第3张

Emu3图像生成、视觉-语言理解和视频生成的主要测评结果

前OpenAI政策主管、现Anthropic联合创始人杰克·克拉克(Jack Clark)当时评价Emu3:“不依赖花哨的架构技巧,仅用最基础的预测下一个token的逻辑,这种‘简单’被视为具备强大的扩展潜力。”

而正是这种“简单”架构路线,对降低大模型研发门槛和成本意义重大。“越是极简的架构,可能越具备强大的生产力,对产业的价值也越大。”智源研究院院长王仲远告诉智东西,“因为它简化了多模态AI架构,减少了研发过程中的复杂性和潜在错误,从而使模型的构建和维护更高效。”

智源研究院登Nature正刊:多模态大模型“悟界·Emu”再创佳绩 智源研究院 多模态大模型 Nature正刊 具身智能 第4张

智源研究院院长王仲远

到2025年10月,“悟界·Emu”系列已迭代出多模态世界模型。Emu3.5可以理解长时序、空间一致的序列,模拟在虚拟世界中的探索和操作,不仅超越谷歌Nano Banana等模型拿下多模态SOTA,并首次指明了“多模态Scaling 范式”,让模型自发学习世界演变的内在规律,为具身智能等物理AI领域发展提供了重要新路径。

智源研究院登Nature正刊:多模态大模型“悟界·Emu”再创佳绩 智源研究院 多模态大模型 Nature正刊 具身智能 第5张

Emu3.5延续了多模态数据统一建模的核心思想

本文将深入探讨Emu3为何能登上Nature正刊、背后的AI原创技术以及其对学界和产业界的实际影响。

论文名:《通过预测下一个token进行多模态学习的多模态大模型(Multimodal learning with next-token prediction for large multimodal models)》

论文地址:https://www.nature.com/articles/s41586-...

GitHub地址:https://github.com/baaivision/...

押注AI未来的技术豪赌:50人小组死磕“统一”

Emu3模型最早立项是在2024年2月,当时团队重新审视大模型发展路径。随着GPT-4、Sora的爆火,“预测下一个token”自回归路线彻底改变了语言模型领域,并引发了关于AGI早期迹象的讨论。而在多模态生成领域,DiT(Difussion Transformer)架构成为主流。

自回归技术路线是否可以作为通用路线统一多模态?一直是未解之谜。

Emu3的开创性在于仅采用“预测下一个token(NTP)”自回归路线,就实现统一多模态学习,训练出性能出色的原生多模态大模型。

这是一条挑战传统的“冒险”之路,在成功之前,智源研究院团队经历了重重挑战。

性能匹敌专用模型:两年,Emu3已深度影响产业发展脉络

多位业内专业人士告诉智东西,Emu3模型发布两年多以来,已经对多模态领域产生了显著影响,推动了整个产业的发展脉络。有证据表明其在产业界中得到了广泛应用和高度认可。

揭秘Emu3框架:技术角度看待“扩散模型已死”

王仲远坦言,目前对于扩散模型的研究趋势尚不能定论。虽然有一些成果如Emu3.5提供了世界模型的可行路径,但并非唯一路径。未来可能会有更多技术路径实现“预测下一个状态”,且扩散模型也在与其他技术结合改进。

坚持原始创新:北京智源引领大模型技术演进

自创立以来,智源研究院通过多项成果深刻影响了中国AI学术和产业界。其在发布“悟道”大模型后,又开辟了新的模型系列——悟界·Emu,不断在关键能力与方法论上实现突破。

“开源之都”建设初见成效:北京领跑AI基础研发

“全球大模型第一股”智谱成功上市;百度文心大模型上线;Kimi开源新模型……而智源研究院则再次靠Emu系列刷新纪录。北京在大模型领域的领先,不仅仅依靠项目数量或融资规模,更在于对基础能力的扎实投入。