2025年10月30日,智源研究院(下称“智源”)在北京举办“悟界·Emu系列技术交流会”,智源院长王仲远、智源多模态大模型负责人王鑫龙,发布了Emu3.5多模态世界大模型。这项工作的发布开启了AI从语言学习向多模态世界学习演进的新纪元,让原生多模态的大规模预训练、大规模强化学习和高效推理迎来了新突破,指明了多模态 Scaling 的新范式,并证明了一条更简洁、更具扩展性的技术路径的可行性。与此同时,Emu作为“悟界”系列模型的重要组成部分,标志着AI正加速从数字世界迈向物理世界的关键一步。王仲远表示:“在多模态模型和世界模型上,业内没有统一法则,大家都在探索。随着模型的不断研发,我们相信多模态模型和世界模型应该融合成一个更强大的新物种,那就是“多模态世界大模型”。因此,Emu3.5是我们对这一理念的开创性实践,甚至我们认为智源可能定义并开启了一个新赛道。”
![]()
据了解,Emu3.5遵循第一性原理,采用单一的自回归Transformer架构,实现了端到端的原生多模态世界建模。它在超过 10 万亿 token 的大规模多模态数据基础上展开训练,其视频数据训练量时长实现从15年到 790年的跃升,参数量从8B上升至34B。在对这一模型进行推理时,智源提出“离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)技术,这项技术是一种高效的混合推理预测方法,能够在不牺牲性能的前提下,将每张图片的推理速度提升近 20 倍,让自回归模型的生成效率得以首次媲美顶尖的闭源扩散模型。
为什么说Emu3.5是“世界模型”?它是如何“理解世界”的?据了解,智源之所以将Emu3.5称为“世界模型”,因为它通过单一、统一的训练目标——“预测下一个状态”(Next-State Prediction),从海量的多模态数据中,自发学习并内化了物理世界的运行规律、时空连续性以及事物间的因果关系。它并非被硬编码灌输这些知识,这种对真实世界物理动态的内在表征,使其能够进行长时程规划和与环境进行可泛化的交互。
那么,Emu3.5与当前其他的多模态模型(如视频生成模型)有什么本质区别?作为一个多模态世界大模型,与专注于内容(如视频)“生成”的模型不同的是,Emu3.5的核心在于“理解、预测与规划”,它不仅能生成对未来的预测,更致力于构建一个关于世界如何运作的内在模型。两者本质区别在于:Emu3.5不仅仅能生成内容,还构建了一个内在世界模型的预测系统,能够从大规模多模态数据中原生学会意图解析、因果推理和多步行动路径规划的能力。
悟界·Emu3.5模型具备学习现实世界物理动态与因果的能力,为探索通用世界模型奠定了坚实的基础。它具备三大重要特点:一是具备从意图到规划的特点,模型能够理解高层级的人类意图(如“如何制作一艘宇宙飞船”“如何做咖啡拉花”),并自主生成详细、连贯的多步骤行动路径。二是具备动态世界模拟的特点,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理动态、时空演化和长时程因果关系。三是可以成为泛化交互的基础,其涌现出的因果推理和规划能力,为 AI 与人类及物理环境进行泛化交互如具身操控提供了关键的认知基础。这些特点这让新一代世界模型具备从“理解”到“行动”的全面智能能力,可以生成行动指南和进行图文编辑。并且具备一定的物理直觉,因此可以开展多场景的探索。
Emu3.5 在多模态指导中展现出卓越的时序一致性与步骤推理能力,让复杂任务的执行过程一目了然。多模态叙事能力上,Emu 3.5能围绕任意主题生成沉浸式的故事体验,释放无限想象力。此外模型可实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力,并能在世界探索中保持长距离一致性与可控交互,兼顾真实与虚拟的动态环境,实现自由探索与精准控制。同时,在图文编辑方面,它既能通过自然语言实现任意指令的图片编辑与时空变换,也能以精准、智能、可控且富有创意的方式完成文图生成,让文字与视觉内容的融合更加自然与高保真。在基准测试中,Emu3.5 的表现超越了众多知名的闭源模型。
据介绍,智源的定位是做高校做不了、企业不愿意做的AI创新型研究,创新引领是其主要的使命和愿景。智源是国内最早开始从事大模型研发的机构,过去几年智源在大模型方面做了不少工作,成功研发了悟道1.0、2.0和3.0,很多耳熟能详的大模型人物最初都在智源研究院从事研发,最后通过智源把相关项目孵化了出去。近两年,智源开始将重点放在多模态和面向物理世界的AI研发工作上。之所以聚焦这一重点,是基于智源对于未来技术的研判,即大模型正在加速从数字世界走进物理世界。如今,整个技术路径演进也正在按照智源所预测的大致方向在走。很多大家耳熟能详的视频生成模型和图像生成模型,基本上都是用的 DiT(Diffusion Transformer)架构。因为Diffusion 和 Transformer是两种不同的架构,在实际融合的过程中,就会带来巨大的挑战。从2024年以来智源一直在倡导并希望能够引领原生多模态大模型的研发,把多模态的理解和多模态的生成统一起来。因为只有这样,才能够真正让AI看到、感知和理解这个世界,然后再与硬件结合。正因此,具身智能也是过去这两年智源重点发力的研究方向,最终其希望AI能够进入物理世界,真正解决人类生活中的更多现实问题。
大约一年前左右,智源于2024年10月发布了全球首个原生多模态世界模型悟界·Emu3,该模型只基于下一个token预测,无需扩散模型或组合方法,实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。一年后,智源此次发布的Emu3.5,在“Next-Token Prediction”范式的基础上,模拟了人类自然学习方式,以自回归架构实现了对多模态序列的“下一状态预测(NSP,Next-State Prediction)”,获得了可泛化的世界建模能力,并且观察到多模态大模型性能可以像大语言模型一样随数据、计算和参数规模的增长而提升。王仲远表示:“通过 Emu3 我们验证了自回归架构实现多模态理解与生成大一统的可行性,Emu3.5 则开启了多模态 Scaling 的新时代。更重要的是,它为通往更通用的、能够理解并与物理世界交互的通用AI,提供了一条坚实的、可度量的实践路径。”
王仲远总结称:“以第一性原理来看大模型的未来的话,我们相信AI的下一次跃迁将来自模型对现实世界的深层表征与可泛化行动指导的能力。我们期待与更多科研机构与产业伙伴一起,开创多模态世界大模型新范式,探索通往AGI的演进之路。”接下来,智源将逐步面向学术界合作伙伴开放Emu3.5的科研体验版,以便能够促进基础科学的探索与合作。同时,智源将陆续通过其官方渠道启动面向产业界和开发者的邀请制测试。
相关文章
2025-11-038阅读
2025-11-038阅读
2025-11-038阅读
2025-11-038阅读
2025-11-038阅读
2025-11-038阅读
2025-11-038阅读
2025-11-038阅读
2025-11-038阅读
2025-11-038阅读