超6.4亿次下载！智源发布具身大脑等五大新技术，王仲远：具身智能的淘汰赛还没开始-新零售-资讯-头部财经

超6.4亿次下载！智源发布具身大脑等五大新技术，王仲远：具身智能的淘汰赛还没开始

资讯 » 新零售 2025-06-06

智源研究院院长王仲远

6月6日，被誉为“AI学术春晚”的第七届智源大会在北京召开。

作为中国最早布局大模型研发的科研机构，今天，北京智源人工智能研究院（以下简称“智源研究院”）发布“悟界”系列大模型，包括原生多模态世界模型Emu3、跨本体具身大小脑协作框架RoboOS 2.0与全新智源具身大脑RoboBrain 2.0、全球首个脑科学多模态通用基础模型见微Brainμ以及全原子微观生命模型OpenComplex2。

这是继“悟道”系列大模型之后，智源研究院首次推出代号为“悟界”的具身模型系列。

会前沟通时，王仲远对笔者表示，当前，AI大模型技术还远没有到发展的尽头。而目前AI缺乏世界和空间的感知，多模态数据还没有被有效利用，因此，从“悟道”到“悟界”是水到渠成的一件事，AI正加速从数字世界进入物理世界，这一切构成的世界模型，是实现物理AGI的重要发展路径。

其中，“悟道”的“道”代表智源对大语言模型系统化方法和路径的探索，“悟界”的“界”代表虚实世界边界的不断突破。“悟界”系列大模型承载的是智源对 AI 从数字世界迈向物理世界的技术趋势的判断。

王仲远对笔者指出，“具身智能”不代表人形机器人的智能，所以全新智源具身大脑“悟界”可以适配轮式单臂、轮式双臂、人形双足、四足等机器人类别。据悉，目前智源已经与20多家具身智能头部企业已建立非常深度生态的合作关系。

“与很多具身智能创业者、科研学术界老师交流后，我的一个坚定观点是：具身智能的‘小组赛’还没结束（在进行中），远没有到‘淘汰赛’。所以，行业需要越来越多的参与方一起共建具身智能产业，这本身是一件好事，因为这会给大家带来不同视角、不同理念。”王仲远称。

王仲远强调，现在人形机器人的硬件不成熟，模型也不成熟。而未来，机器人首先会在特定场景里落地，尤其是一些相对封闭的场景，比如在工厂完成相对固定、重复、枯燥甚至危险的任务，这会是具身智能第一波真正的红利。

据悉，智源研究院是于2018年11月在北京海淀成立的一家非营利性新型研发机构，致力于成为AI创新引领者，营造全球最佳的学术和技术创新生态，挑战最基础的问题和最关键的难题，成为全球 AI 学术思想、基础理论、顶尖人才、企业创新和发展政策的源头。

其中，智源社区链接19万+AI 技术人员，和青源会近2000位海内外青年AI科学家，加速AI原始创新，并累计支持120+智源学者开展AI前沿探索，累计孵化加速了10余家具有核心技术能力的AI创新企业，估值超过百亿有1家，超过十亿有5家。

王仲远表示，成立6年多时间里，智源率先预见AI大模型时代的到来。早在2020年，智源就组建一支百余人的技术攻关团队，启动悟道系列大模型研发，先后发布悟道1.0、2.0、3.0，构建自主可控的全栈大模型技术开源体系，并孵化国内数家头部大模型创业公司。

而去年，智源大会发布一系列技术产品，使得大模型从语言模型向多模态大模型延伸，并向世界模型方向进行演进，加速从数字AI世界进入到物理AI世界。王仲远称，“实践证明，我们对于技术演进路径预判的正确性。”

据透露，目前智源开源模型全球总下载量超6.4亿次，比去年同期的4755万次提升12.5倍；AI系统软件栈FlagOS对11家国内外厂商18款AI芯片已统一支持；开源超160个数据集，下载量近113万次；开源项目代码下载量超140万次。

“大模型技术还远没有到发展的尽头，过往所说的‘百模大战’更多的是大语言模型的竞争，而大语言模型受限于互联网数据的使用，基础模型性能虽然还在提升，但是提升速度不如以前。”王仲远指出，就目前来看，大语言模型性能提升瓶颈的解法大体有以下三种：

一是通过强化学习，在后训练和推理上提升，例如，O1、O3、O4、DeepSeek R1，这是过去一年大模型产业界最大的一块进展。二是数据合成，目前学术界仍在突破。互联网数据都是人类创造的。如果 AI 合成的数据、生成的数据质量能够达到人类创造的数据质量，那意味着 AI 有可能实现自我学习和进步。三是多模态数据，在全世界范围内，多模态数据是文字数据的百倍千倍乃至万倍甚至更多，这些数据远没有被很有效利用。

如今，智源通过多种研发方式，利用原生多模态世界模型，让AI感知和理解物理世界，进而推进和物理世界的交互。进入物理世界之后，在宏观层面，大模型与硬件结合，通过具身智能的发展解决实际生产生活问题；微观层面，基于生成式AI的蛋白质、脑机接口等应用，能够进一步揭示微观世界的本质，试图揭示生命机理本质规律，构建AI与物理世界交互基座。

具体来说，原生多模态世界模型Emu3让大模型具备理解和推理世界的能力，脑科学多模态通用基础模型见微Brainμ基于Emu3架构，引入脑信号这一新的模态数据，实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来可成为人机交互具身场景下的基础模型。

王仲远称，现在多模态技术路线还没有收敛，文生图、文生视频走的是Transformer+Diffusion的技术路线，比较确定，能力不断提升，在某些特定场景已落地。能否非常普世和广泛落地，需要一段时间。

而RoboOS 2.0与RoboBrain 2.0在初代版本基础上，原有性能大幅提升，并新增多机协作规划与物理常识驱动的空间推理能力；OpenComplex2可在原子分辨率层面捕捉分子相互作用及平衡构象，探索微观构象波动与宏观生物功能的跨尺度关联。

“具身智能目前仍处于技术探索的早期阶段，类似于大模型在GPT-3之前的摸索期。”王仲远认为，当下具身智能面临多重挑战，一方面，核心技术路径尚未明确，如仿真数据利用和“大小脑”融合架构等仍在探索中，技术复杂度远超智能驾驶。另一方面，数据采集困难是具身智能发展的重要瓶颈。真机数据获取受限于现有模型能力，形成“循环悖论”，加之真实世界多模态数据虽然丰富，却难以高效利用。

而软硬件协同复杂，特别是跨本体“大小脑”融合尚未成熟，导致产业落地周期长，缺乏明确的规模化应用。王仲远认为，未来5-10年，大小脑融合的模型可能会成熟，但不是今天。

“我们认为具身智能或机器人2.0时代，最重要的就是突破专有任务，达到一定的泛化性，具备跨领域的能力，这跟AI第三次浪潮中深度学习的发展路径相似。现在很多所谓的VLA模型，不具备泛化性，这需要时间的沉淀。”王仲远表示。

同时，开源模型方面，目前智源拥有通用向量模型BGE系列BGE-v1、BGE-M3、BGE-code-v1、BGE-VL-v1.5和BGE-VL-screenshot等模型，目前，BGE模型已广泛应用于人工智能产业，被百度、腾讯、华为、阿里巴巴、微软、亚马逊等知名企业商业化集成；而智源近期还开源轻量长视频理解模型Video-XL-2，效果更佳、长度更长、速度更快；以及开源全能视觉生成模型OmniGen。

此外，大会期间，智源研究院与北京大学第一医院签署战略合作协议，并且还宣布智源研究院与持有620亿港元的香港投资管理有限公司建立战略合作框架，共建世界级跨区域合作的 AI 生态圈。智源与港投的合作将加速人才、技术、资本的飞轮效应，构建人才循环体系，汇聚全球AI青年人才、支持AI创新创业、加速AI产业全球化。

（本文首发于钛媒体App，作者｜林志佳，编辑｜盖虹达）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

上市公司英方软件发布全新智能备份系统，预计2027年信创产业规模超3.7万亿元

2025-06-078阅读
荣耀的新故事，李健的半年考

2025-06-078阅读
1200 美元：三星发售 32 英寸 Color E-Paper 彩色数字标牌

2025-06-078阅读
Ubuntu核心固件包 linux-firmware 体积暴增，工程师提议分拆瘦身

2025-06-078阅读
谷歌 Pixel Watch 智能手表新特性：断连后手机自动锁定

2025-06-078阅读
聊一聊私域加粉的优势和不足

2025-06-078阅读
加快发展首发经济激发消费新活力

2025-06-078阅读
菏泽市商务局：对消费季活动进行了全方位、多层次的创新布局

2025-06-078阅读
仅发了一个4秒自我介绍韦东奕一天涨粉近千万

2025-06-078阅读
每天自动获取日历邮件摘要：谷歌 Gemini 应用新增计划功能

2025-06-078阅读