当前位置：首页 > 科技资讯 > 正文

智源研究院登Nature正刊：多模态大模型“悟界·Emu”再创佳绩

主机测评网
科技资讯
2026-06-17
668

智东西2月1日报道，北京时间1月29日，北京智源人工智能研究院推出的多模态大模型“悟界·Emu”在Nature正刊发表，成为中国继DeepSeek之后第二个达成此成就的大模型团队研究成果，同时也是中国首篇围绕多模态大模型路线的Nature论文。

智源研究院登Nature正刊：多模态大模型“悟界·Emu”再创佳绩智源研究院多模态大模型 Nature正刊具身智能第1张

Nature官网截图

Nature编辑点评道：“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义，有望推动原生多模态助手、世界模型以及具身智能等方向的发展。”

智源研究院登Nature正刊：多模态大模型“悟界·Emu”再创佳绩智源研究院多模态大模型 Nature正刊具身智能第2张

Emu3有望推动具身智能等方向发展

“悟界·Emu3”模型由智源研究院于2024年10月推出。无论在感知还是生成方面，Emu3均达到了于特定任务期间模型相媲美的性能。该模型能够完成文本到图像生成、文本到视频生成、未来预测、视觉语言理解、交错图像文本生成以及具身操作等多方面任务，这一成果对于确立自回归成为生成式AI统一路线具有重大意义。

智源研究院登Nature正刊：多模态大模型“悟界·Emu”再创佳绩智源研究院多模态大模型 Nature正刊具身智能第3张

Emu3图像生成、视觉-语言理解和视频生成的主要测评结果

前OpenAI政策主管、现Anthropic联合创始人杰克·克拉克（Jack Clark）当时评价Emu3：“不依赖花哨的架构技巧，仅用最基础的预测下一个token的逻辑，这种‘简单’被视为具备强大的扩展潜力。”

而正是这种“简单”架构路线，对降低大模型研发门槛和成本意义重大。“越是极简的架构，可能越具备强大的生产力，对产业的价值也越大。”智源研究院院长王仲远告诉智东西，“因为它简化了多模态AI架构，减少了研发过程中的复杂性和潜在错误，从而使模型的构建和维护更高效。”

智源研究院登Nature正刊：多模态大模型“悟界·Emu”再创佳绩智源研究院多模态大模型 Nature正刊具身智能第4张

智源研究院院长王仲远

到2025年10月，“悟界·Emu”系列已迭代出多模态世界模型。Emu3.5可以理解长时序、空间一致的序列，模拟在虚拟世界中的探索和操作，不仅超越谷歌Nano Banana等模型拿下多模态SOTA，并首次指明了“多模态Scaling 范式”，让模型自发学习世界演变的内在规律，为具身智能等物理AI领域发展提供了重要新路径。

智源研究院登Nature正刊：多模态大模型“悟界·Emu”再创佳绩智源研究院多模态大模型 Nature正刊具身智能第5张

Emu3.5延续了多模态数据统一建模的核心思想

本文将深入探讨Emu3为何能登上Nature正刊、背后的AI原创技术以及其对学界和产业界的实际影响。

论文名：《通过预测下一个token进行多模态学习的多模态大模型（Multimodal learning with next-token prediction for large multimodal models）》

论文地址：https://www.nature.com/articles/s41586-...

GitHub地址：https://github.com/baaivision/...