对话灵初智能CEO王启斌:让机器人进工厂有意义,让机器人学会打麻将也有意义

资讯 » 人物资讯 2025-06-11

出品|

作者|常博硕

编辑|杨锦

“吃!”“碰!”“胡了!”

前不久,一则机器人与人类同桌打麻将的视频流传网络。在持续30分钟的自主决策中,机器人除了能够完成翻牌、摸牌等一系列灵巧的操作,还能根据牌局状态自主构建出牌策略。

这背后,是灵初智能强化学习算法模型Psi R1,在展示开放场景下机器人处理长程复杂任务的能力。这也是全球首个支持“动作感知-环境反馈-动态决策”全闭环的端到端具身VLA模型。

具身智能的浪潮席卷全球,机器人逐渐从人类科幻的想象走进产业的黎明。从春晚丢手绢到地库里骑自行车再到上桌打麻将,这个领域里从不缺少激动人心的瞬间。

在一片“秀肌肉”的喧嚣中,有一个声音吸引了我们的注意。“我们不做简单的、假把式的东西”,灵初智能创始人兼CEO王启斌近日与对话时表示:“我们就是要用稳定、低价的产品去解决朴实的问题。”

灵初智能创立于2024年,创始人除了有着多年产品操盘经验的王启斌,还包括斯坦福大学访问学者、李飞飞的学生陈源培、以及在机器人及无人驾驶领域有着丰富算法经验的柴晓杰博士。灵初智能也与北京大学成立了北大-灵初智能具身灵巧操作联合实验室,由北京大学人工智能研究院助理教授杨耀东、梁一韬担任联合实验室项目负责人。

在具身智能这场科技浪潮的弄潮儿中,灵初似乎是一个“迟到者”。但王启斌对此却持不同看法:“我认为快与慢是相对的。”他表示,灵初早在22年就开始技术布局,同时就VLA模型与灵巧手操作的定位来说,此时入局并不算晚。

作为一位在硬件领域摸爬滚打了多年的“老兵”,王启斌曾在京东和云迹机器人等公司积累了产业经验。“硬科技创业潮并不是第一次发生,”他谈道,这份沉淀下来的对周期的认识,让他为灵初选择了“双臂轮式机器人”这一务实的产品形态。

他还透露,灵初目前有明确的海外物流客户并有半年内交付欧美仓库的计划。

操作二字说来简单,却一直是机器人的技术难点。许多人类轻而易举完成的动作,对机器人来说却“难于上青天”。两年前,具身智能还是VLM(Vision Language Model,视觉语言模型)的时代。VLM让机器人能够同时处理和理解视觉和语言,但难以对机器人的物理动作实现直接控制。

随着人们对机器人赋予更高的期待,除了看得见、听得懂,我们更希望机器人能够做得好,VLA就这样诞生了。VLA(Vison Language Action Model,视觉语言动作模型)不仅可以解析图像和文本信息,还能通过动作解码器直接输出动作路径,让机器人实现类人推理和全局理解能力。

王启斌认为,只有具备长程操作的机制和能力,机器人才能真正做到在半开放的,随时有动态变化的环境中观察、决策、判断、操作最终达到人类想要的结果。

“打麻将也有可能迭代成陪伴型机器人,但本质还是为了告诉大家我们有能力去做开放环境中的长程操作,能够解决商超、物流中的任务。”

谈及资本市场的变化,王启斌坦言,相比去年,当下投资人对具身智能有了更明确的商业化的期待。

以下为与王启斌对话实录(经编辑):

:您能分享下目前公司的团队规模情况吗?有扩张的计划吗?

王启斌:现在公司是在80人左右,其中灵初和北大联合实验室的实习生大概有30人左右,目前还在增加新人。

:从22年开始具身产业已经开始火热,您在24年才入局会不会觉得有点晚了?

王启斌:我觉得快与慢是相对的,灵初的研发22年就开始了。大部分公司都是在23年开始做的,但更多做的是偏简单的操作。我们的战略定位是不做简单的、假把式的东西,所以这个时候入局我觉得不算晚。

:您认为灵巧手主要的难点目前在哪里?

王启斌:手真正的能力强弱不仅仅是一个硬件指标能衡量的,目前会有几个维度。第一是从需求层面来说,举个例子搬重物,实际就是对承载的要求。第二是手的训练数据怎么来,用什么方法能从手上取得数据,最后是怎么做到量产。

:您之前在京东和云迹机器人的工作经验,有哪些可以直接迁移到灵初上?

王启斌:有几个很重要的要素,第一是融资,去年融资还比较顺利。第二是我能组到什么样的团队,第三是我们在生态中整合资源的能力。从供应方来看,会有以前的一些供应链客户的资源。

我个人觉得非常有价值的是,大家今天做的是硬科技,这个事情并不是第一次发生。在18年开始我们做的机器人到智驾,大家一开始都有一个很高的预期,中间又对长期效果有些低估。这一轮硬件应该怎么做和公司目前不碰双足机器人的定位,包括客户的需求迭代,这其实是我之前做消费电子沉淀下来的对于周期的认识。

:从大模型到具身智能,科学家创业的非常多,您是怎么说服大牛科学家们加入的?

王启斌:我觉得还是大家想一起做一件非常有价值的事。科学家们非常缺乏像我这样在工业界待了很多年的人。我在23年就开始找合作伙伴了,最后觉得真正能做手的人才非常稀缺。以杨耀东老师为首的国家团队本身做的很好,我们聊了小半年最后组建了一个团队来做这个事。大家对这个事有一个强烈的共同意愿以及合理的利益分配,能够促成长期稳定的合作。

:灵初为什么要做VLA模型,这个模型提升了机器人什么样的性能?

王启斌:Psi R1是对之前模型的迭代,针对的是需要操纵大小脑一起去解决挑战的环境。机器人依据简单规则执行单一任务并不能解决现在的问题。如果能做到在半开放的,随时有动态变化的环境中观察、决策、判断、操作再达到我们想要的结果,机器人一定是需要长链程操作的机制和能力。

:目前头部的具身公司例如Figure AI、Physical Intelligence等都在做自己的VLA模型,灵初的Psi R1有什么优势?

王启斌:第一是手上的操作,Figure AI手上的操作能力很弱,如何训练出操作能力很强的手这个挑战全世界只有极少的团队能做出来,我们肯定是能做出来的。第二个是整个模态的协同能力,一定是经过长时间的训练和练习才能做出来。

:目前灵初训练主要用采集数据还是仿真数据?

王启斌:这是两种学习方式。回到数据里,模型更重要的是能不能学出超越人的东西。预训练我们既有强化也有小部分的模仿,大部分是仿真合成数据也有自己采集的少量真实数据。真机数据一个是成本很高,另一个是天花板太低了,学不出超越人的东西。

:我们训练机器人打麻将用了多久?目的是什么?

王启斌:训了大概一个半月。打麻将本身也可以迭代成陪伴型机器人或者其他有娱乐性的东西,但本质还是为了告诉大家,我们有能力做开放环境中长程的操作,这样的模型基础能力能够解决比如商超、物流中非常长链程的任务,同时我们也会进行更多商业化可能的探索。

:从产品上来看,为什么您认为目前轮式机器人已经足够了?

王启斌:这个可能说的不完全。我觉得机器人的发展是有几个阶段,第一个阶段是在相对标准化的一些地面移动环境里作业,目前我们都还在这个阶段。第二个阶段是像人,这个阶段双足很重要,因为现实世界有各种各样的环境。第三个阶段是类似于更多的生物体,能在空中飞等。目前灵初做双臂轮式机器人是因为很大程度上对于我们客户的应用环境来说,轮式已经足够了。

:未来有做人形机器人的计划吗?

王启斌:我觉得这个可能要把第一阶段走完再去考虑。我们现在还是聚焦在操作上,我们的产品就是要用稳定、低价格的硬件去解决非常朴实的问题。

:灵初是靠什么来达到稳定且低价的呢?

王启斌:这是一个中国生态的优势。因为我做了很多年硬件,我很清楚灵初的优势,我们有很强的算法,也找到了最厉害的供应商来一起做。

:目前灵初产品的目标落地场景是什么样的?

王启斌:目前我们处于ToB为主的阶段,一个是制造业加工中的一些工序,包括物料的检验、搬运、来料检查包括后面整个包装这样的事情。另外一个是大的物流行业,会做拣选、分拨的一些工作。我们目前有非常明确的全球仓库物流的客户和直接布置到美国和欧洲仓库的计划,应该会在六个月内交付。

:短期内我们有整机机器人量产的计划吗?预计产量是多少?

王启斌:产量其实是根据我们落地的节奏来的,到26年底我们销售额应该在几个亿。

:目前产品的定价大概在多少?

王启斌:价格在各地有差别,在海外基本大家接受的是两年的人工工资,目前机器人售价如果能低于这个岗位24个月的人工费用,就是一个很好的产品。

:很多人会质疑这个行业充斥着资本炒作出的泡沫,您怎么看?

王启斌:我觉得新技术总是有泡沫的。大家能看到非常多的钱进来,也能看到各种各样的人,要看清楚自己做的是什么事。

:今年和去年相比,资本市场有什么变化?

王启斌:头部的一些基金已经投了一些公司,所以会有更明确的商业化的期待,同时风险投资和产业投资也都在看更有生命力的技术路线。

:宇树和智元最近似乎有一些IPO的动作,具身智能机器人作为近两年才火起来的行业,您觉得现在上市,节奏太快了吗?

王启斌:上市是一个很大的节点但并不是终点。目前技术迭代快,产品的形态也还有很多争议,机器人潜在的市场非常大,在生态足够大的前提下不同的公司就会走不同的路。对于我来说,目前技术的迭代非常快,仍然有很多挑战在,上不上市不是我个人特别关心的点。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。