人形机器人与具身智能的构型可能还需要不短的时间来确定,在这之前,能够先行且基本确定的两个方向,一个是具身大模型,另一个则是具身智能数据。前者就像是汽车的智能驾驶系统,后者就像是自动驾驶数据,但自动驾驶数据仅局限和道路相关,具身智能却是需要和世间万物交互,难度无疑更高。
目前具身智能虽从实验室走向量产阶段,但整体仍处于“幼儿园孩子水平”,人形机器人基本都是初级大脑”,仅能完成抓取、走跑跳等简单动作,复杂长程任务能力薄弱,缺乏流畅性与协调性:交互往往生硬、不自然,缺乏人类对话中微妙的节奏、轮替和预期,难以完成需要高度协同的复杂任务,想要真正落地面临硬件长期稳定性与一致性不足、软件泛化能力弱、数据匮乏无标准三重困境。
想要以“通用智能体”为目标,开启从0到1的智能进化,就需要搭建感知—推理—执行的完整链路,并通过数据飞轮实现模型能力与产品性能的持续提升。这必须依托大量数据,才能配合大模型支撑的多模态理解与泛化能力,适应复杂任务与动态环境。
目前已确认在具身智能大模型领域,模型的性能同样遵循Scaling Law。根据Scaling Law,当模型的参数或计算量按比例扩大时,模型性能也随之成比例提升。但只有当参数规模突破了某个阈值,大模型才会“涌现”出上下文学习、复杂推理等能力。而随着参数规模的增加,需要更多数据来训练模型,即模型参数与训练数据量之间也存在类似的比例关系。因此,无论是真实的环境交互产生的操作数据,还是通过远程操纵或人类示范来获取的学习数据,都是机器人学习和进步的基础。而在一个优秀的模型架构基础上,大量高质量的数据是迈向更高智能性的关键。
东吴证券等部分研究机构认为,依据Scaling Law的经验推演,1亿条高质量行为轨迹数据是支撑具身智能大模型能力跃迁的关键门槛。为此,北京和上海等地的创新中心以及智元等头部企业,目前都开始加速搭建“仿真-真机融合”的数据训练场,通过并行机器人、远程操控、仿真回放等机制,高效采集覆盖不同场景、任务和交互模式的大规模数据,尝试打通数据采集-处理-训练-仿真-部署的全栈式解决方案,构建高标准、可扩展的训练场,试图开启数据飞轮与产品迭代循环。
那么人形机器人与具身智能落地的下一步,到底怎么打通数据链路?机器人大讲堂独家采访到了业界知名专家——全球动作捕捉技术领军企业CTO陈溥,聊了聊当前构建人形机器人与具身智能的数据飞轮可能性与路径。
以下是采访实录,部分表述有删减优化:
▍具身智能落地的难点与解法?
机器人大讲堂:人形与具身智能正从实验室开始走向落地,来到量产时间段,您觉得具身智能想真正进入到工厂等具体场景实际运用,还面临哪些问题?
元客视界CTO陈溥:现阶段人形机器人与具身智能处于“幼儿园孩子的阶段”,来自公开的一些数据集就能够完成大部分的任务,例如抓拿放、走跑跳等简单的基本原子级动作,以及在“干净”和交互较少的环境中展示舞蹈或者格斗等普通技能。对于复杂交互性强的工作仍然处于探索延伸期。三大核心问题:
硬件:“用久了容不容易坏?能不能稳定干活?”
智能/数据:“缺好‘教材’高质量数据集”、“换地方(场景)就懵”、“成功率难保证”。
效率:“干活太磨叽”、“效率比不上人”、“搞不好拖后腿”。
最终导致机器人执行任务成功率效率低下,泛化性差。最关键的一个环节是如何采集,达到一个什么样的数据标准。
机器人大讲堂:机器人大模型的训练数据主要分三种,一种真实数据,一种仿真数据,还有互联网数据,三种数据应用到实际场景中,哪一类对于任务泛化成功率的影响更大?对于数据的应用呈现怎样的趋势?
元客视界CTO陈溥:行业目前主要按照“仿真+真机”比例混合训练模型,理想模型是基于10%的真机数据生成80%的仿真数据,再使用10%的真机数据验证Sim 2 Real效果,这是提升模型泛化性与智能性的必然选择。纯真实数据训练虽然更贴近实际,但采集效率低、成本高,同时由于大多为“成功范式”,模型难以从失败中学习,缺乏负样本经验。而单靠互联网与仿真数据,虽然建设通用性的场景感知和指令理解能力速度快,却存在明显的Sim2Real Gap,仿真环境难以完全还原现实世界中的感知噪声、物理扰动(摩擦系数、弹性形变、温度等)与交互复杂性,真机实际落地的泛化有效性、安全性存疑。因此,真实数据用于纠偏与对齐,仿真数据用于规模扩展和多样性覆盖,二者融合训练可有效兼顾效率与表现,是行业公认的发展方向。在此基础上,我们采取了降低真机采集数据的成本,扩大真机数据采集的效率,另一方面与仿真平台公司合作,化完善物理仿真引擎,弥补仿真环境训练数据迁移的泛化性不足、成功率较低的缺陷。
机器人大讲堂:真机数据的采集主要依赖动捕设备完成,目前主要分两个流派,一个是光学捕捉,另一个是惯性捕捉,哪个方式采集的数据对训练和迁移帮助更大?
元客视界CTO陈溥:高精度+抗遮挡,动捕行业技术融合也是主要趋势,最早动捕应用在影视动画领域,分为声学、电磁、惯性、光学等多个技术路径,经过四五十年的市场验证,目前主流方向逐渐收敛于光学和惯性两大方向。光学动捕精度极高,可达0.1毫米级,能够实时捕捉人或物体的运动轨迹,还原度、细腻度、自然度非常高,尤其适用于手指灵巧作业等接触面作业精度要求高的情况。惯性动补的数据连续性更好,不怕遮挡,得应急救援等应用领域青睐。元客视界的FZMotion运动捕捉系统采用了光学与惯性融合的技术路线,这种方式实现了集成化、智能化的高质量数据采集,既能保证获取高精度数据还能解决被遮挡的困扰,显著提升了数据采集的连续性,充分体现出光惯融合技术方案可以更好保障数据质量。
机器人大讲堂:人体动作向机器人高效转化长期存在映射失真、效率低下问题,这种光惯融合方案采集效率如何?
元客视界CTO陈溥:我们建立了一个高质量机器人训练数据的标准,包括精度0.1毫米,采集效率上则引入了生产线上常用的“稼动率”概念,稼动率(Utilization Rate)指设备在所能提供的时间内为创造价值而占用的时间比重,反映设备或生产线的实际运行效率。其核心是衡量实际生产时间与理论可用时间的比率,常用于制造业优化生产流程。数据采集的稼动率指的是单位时间内为采集有效数据而占用的时间比重。
目前,元客视界在单次采集任务中可实现83%的稼动率,即在60秒的任务时长中,能够高效采集50秒的有效数据。如一人工作时长为8小时,高稼动率可以减少因频繁调整动作所造成的时间损耗,大幅提升有效工作时长。在当前运行模式下,我们将人机工效比从1:10优化到1:2,效率提升5倍,这意味着同一任务,由机器人完成所需时长仅是人工耗时的一倍。
▍数据融合训练的行业共识
机器人大讲堂:您刚才提到Sim2Real Gap的问题,采集的数据迁移到具身智能真机,能解决多模态异构适配这类问题吗?
元客视界CTO陈溥:数据映射到真机主要涉及人体数据重定向的问题,因为目前具身智能形态多样,但人形机器人、仿人机械臂无论外观姿态多么拟人,最终和人体依然有着不小大的差异,人形机器人的关节自由度很难像人一样,将骨骼分成几截,每一节长度能做到等比例,这导致动捕设备采集的人类数据,如果不进行转化处理,动作映射到机器人受限于关节自由度就很难复现。
为此,元客视界目前尝试开发了一套人体Human to Robot的映射重定向算法,实时能将人体25个关节30个手指关节的物理量以及空间坐标、姿态、欧拉角、轴角等参数,全部转化成为机器人运动控制肘关节、肩关节、踝关节、膝关节等的目标位置、速度、力矩、刚度系数、阻力系数等,从而让机器人能在自由度限制内更丝滑完成动作,并保证机器人数据采集的效率。由于以时间轴对齐了多模态结构化数据,这类数据既可以整合应用,也可以拆分成不同维度的数据,适配不同模块从而实现针对性模型训练。
机器人大讲堂:这相当于打破了单模态的局限,实际泛化成功率有测过具体的数据吗?
元客视界CTO陈溥:虽然我们还没有得到大规模的验证,但我们目前已经与几个TOP客户进行了大型数据采集到具体场景训练应用的项目,预计在Q3Q4就能获得相对定量的泛化成功率结果。
机器人大讲堂:虚拟仿真数据在实际训练中的权重日益增加,如果采取真机和仿真数据混合训练的长序列动作,仿真与实物的有效性对齐你们怎么做的?映射到真机后的可靠性和泛化性怎么样?
元客视界CTO陈溥:仿真环境的动作序列以及模型映射到机器人实体,与真机数据采集的逻辑类似,我们一方面通过给URDF模型设定足够多的物理参数维度,例如碰撞干涉检测、重心质心、摩擦阻尼系数,就能让仿真环境训练的动作序列在迁移真机过程中保证物理量的一致性。另一方面,尝试构建更趋于真实的模型环境,保证主要操作物体模型建模的物理真实特性,以及组合部件的相关性、摩擦系数、限制约束,例如涉及开关门的家具、冰箱。同时我们考虑到仿真环境的真实性,构建了与真实世界更加相似的训练环境,从而保证了训练环境的可复用性。
机器人大讲堂:那么是否可以理解为元客其实从数据采集到标注清洗、训练、仿真再到真机部署的全栈流程基本都打通,而不再单纯是一个动捕系统平台?
元客视界CTO陈溥:对,我们早期也聚焦在动捕设备数据采集端,但大多开发者反馈,无论是后端缺乏处理流程,导致各环节Gap明显,我们之前的客户中,有些同时购买了海外以及国内厂商的设备,但采购后,发现后续需要投入大量额外工作。为此,我们考虑推动整个行业的快速发展,倡导大家各自专注擅长的专业领域,于是,我们尝试向下延伸,从数据采集延展到多模态数据整合,以及更后端的结构化处理、存储,标注、仿真等,并通过与不同机器人本体适配,最终形成一套全栈数据解决方案。这套完整的工具链能够让高校、企业还是个人开发者,都能快速完成机器人应用开发,满足不同应用场景对数据的多样化要求,从而达到提质增效降本。
机器人大讲堂:多本体硬件平台的兼容性会成为这套数据体系的阻碍吗?
元客视界CTO陈溥:本体硬件平台我们已经和主流厂家进行了一些打通,包括宇树、智元、傅利叶、睿尔曼、傲意、因时、强脑等市占率较高的头部企业都能适配和软件重定向,全新款机型的适配也能在两三周就能完成。
机器人大讲堂:标注这块是全自动的还是半自动的大模型预标?
元客视界CTO陈溥:标注可以自动识别框选,也支持人工标注框选。框选主要借鉴了自动驾驶的矩形框选、圆形框选模式,也支持复杂形状的视觉识别框选标注。
▍数据采集到应用的量化评估体系
机器人大讲堂:这套完善体系对不同的人形机器人本体,是否也可以反推出一套从数据采集到应用的量化评价指标?
元客视界CTO陈溥:因为整个行业还在快速发展期,缺乏统一标准,我们现在其实也在摸索,一方面和头部企业合作基于实际应用去定义一些标准,同时也正尝试把这些标准和国内的一些标准机构包括信通院、赛迪研究院等对接,推动国标行标的制定,协同建立评估标准和方案,这与目前自动驾驶行业做的事情非常类似,主要评估能够量产企业的产品商业化落地能力,以及关键零部件和整机性能。现阶段人形机器人受限于价格,距量产应用还有距离,但预计马上会有第三方评测机构,综合评估测试机器人产品包括技术性能、安全性、可靠性、经济性及场景适配性等在内的多项指标。如机器人想要进入工厂和家庭,可能就需要基于运动学和动力学体检,确保机器人的步态的对称性和一致性,而三维动作捕捉系统则可以通过量化机器人的步态周期参数、支撑相和摆动相占比,并结合力传感器、IMU等综合分析评估机器人行走的稳定性、能量效率、整机步态周期状态等,判断机器人的动态平衡能力以及重复定位精度等相关性指标。
我们目前FZMotion Transformer评测软件就能在15分钟完成160+项测试,有两个关键点:第一,对于不同本体构型,我们通过重定向工具能实现快速适配,一个新型号通常只需两到三周就能完成适配;第二,我们解决了两个核心问题:首先是实现动作的自动语义分割。为了提高效率,机器人性能评估时是执行预设的控制程序,像做广播体操一样连续完成所有动作,再自动分解为一个个测试项。而不是做一个动作测一个结果。
我们对运动捕捉到的整个数据动作进行分割,将其拆解为用户自定义的多个测试项,定义了停顿动作,例如机器人静止或特定动作保持两到三秒,从而实现语义的自动分割。其次,性能评估需要识别是否存在问题,包括异常的抖动或振动。这需要将异常振动与机器人本身的正常振动区分开来。机器人本体带有电机及风扇等散热设备,会产生一些固有低频振动。我们通过滤波技术滤除这些低频振动,从而将其与异常振动区分开。正是通过解决这两个问题,我们实现了更高效的整体性能评估。
机器人大讲堂:能耗是机器人商业化的关键瓶颈,你们这套量化评估方案能否为能源系统优化提供数据支撑?
元客视界CTO陈溥:当前人形机器人的功耗问题非常突出。以行走为例,人形机器人功耗约为1000瓦,而人类行走仅需70瓦左右,可见机器人的能效远低于人类。若要解决类似新能源汽车的续航焦虑问题,目前部分厂商采用的解决方案是机器人自动换电,但这种方式既需配备多块电池增加成本,又因换电过程耽误作业效率。因此,降低机器人能耗、解决续航焦虑仍是核心课题。那么如何评估其下降潜力?这需要结合运动学与动力学进行系统分析,当前多数电机驱动机器人虽能提供充足动力,却较少关注驱动效率是否最优。我们建议可以尝试通过运动学与动力学分析,分析机器人执行行走、搬运或抓取等动作时,优化关节运动轨迹使其更短更合理,并依据各关节电机的力矩、角加速度等参数精准计算功耗。基于此,我们能系统优化机器人功耗模型,长远而言将功耗降至可接受范围。
机器人大讲堂:那么如今做机器人数据训练场,您觉得需要采多少条的高质量的行为轨迹数据,才能支撑大模型去实现落地,或者是达到具身智能能力迁移的门槛?
元客视界CTO陈溥:具体需看场景任务复杂度。以商业服务场景为例,比如咖啡连锁店,环境相对固定,设备操作、物品位置均可固化,再加上与人的互动环节,如收银、制作、揽客介绍等,整个工艺流程涉及100到200个任务动作。此类场景,我们认为十万条到五十万条数据,最多不超过一百万条,即可实现99%的成功率。而对于环境变化较大的场景,比如便利店,其理货与分拣任务的泛化程度更高,可能需要百万条以上的数据。至于工业场景,如工厂中的分拣、码垛、搬运及组装环节,尤其在最后一公里的柔性总装制造环节,这类环节往往标准化程度较低,且要求成功率极高,例如工业场景可能需达到99.99%的成功率,我们目前评估,这需要千万条级别的数据规模。
机器人大讲堂:有观点认为,目前人形机器人与具身智能训练大多偏向于动作数据跟小模型数据,那么进行一些长任务的数据采集和训练瓶颈在什么地方?
元客视界CTO陈溥:现阶段,我们在长期动作规划方面尚未成熟,核心挑战在于当前的集成智能模型缺乏长时间记忆能力,无法持续拆解和记忆复杂任务。目前多数模型仅支持一对一的即时响应(例如VLA),而长期规划能力受限于模型本身及机器人的算力瓶颈。正如业内专家王兴兴所分享的,受限于机器人本体的尺寸和功耗,其本地算力配置通常不高,约在100瓦范围内。因此,未来必须结合边缘算力或云端算力构建解决方案。
目前,我们主要应用快慢脑技术尝试解决这种问题。该技术对应机器人的大小脑响应机制,类似于人的下意识动作,能够实现快速反应。然而,面对复杂任务,例如“收拾房间”这类模糊指令,机器人需依赖智能大模型进行任务规划与拆解,它会分析房间内需要处理的对象特征、关联,从而形成系统性的任务规划,但这一过程高度依赖视觉与行动间的交互规划。目前已有部分实践在工厂或小范围固定场域展开,通过在场内部署边缘算力节点,供该区域内多台机器人共享使用,并将专业场景模型部署于边缘端而非本地,这种方式就可以让机器人直接从此边缘节点获取任务规划指令,实现高效协同运作。
▍结语与未来
机器人大讲堂:相比国内外动捕厂商来说,元客视界的优势在哪?
元客视界CTO陈溥:早在2010年,母公司凌云光便前瞻性布局空间视觉领域,成为国内运动捕捉技术的早期参与者和重要推动者。依托集团在光学技术领域29年的深厚积累与持续创新的技术成果,元客视界构建了从底层算法研发、硬件设计制造到系统集成的全链路能力。其旗下运动捕捉品牌FZMotion成功入选2024年北京市首台(套)重大技术装备目录。近年来,凭借国家对民营企业及自主创新产品的大力支持,FZMotion已稳居国内外动捕厂商头部阵营,发展成为业内最具影响力的标杆产品。
尤其是当前研究的在具身智能数据采集领域,核心优势主要体现在几个方面。首先,在数据采集端,我们着力解决了精度问题以及防遮挡情况下的数据连续性难题,显著提升了数据的精度。其次,凭借数据采集的高准确率,有效减少了后期数据出错和重复采集,从而提高了整体采集效率。第三,得益于我们多年来在人体动作捕捉领域积累的深厚经验,特别是在重定向算法方面拥有较强能力,这与我们团队之前深耕影视动画领域有一定关联——核心技术之一就是将真实人体数据重定向到数字模型上,例如电影《哪吒》中就需要将演员动作数据重定向到哪吒模型上。我们在处理真人到虚拟角色的关节映射方面拥有丰富的算法经验。而真人动作重定向到机器人与其有相通之处,将这项技术应用于机器人领域时,我们具备独特优势,能够显著提升机器人动作重建的流畅度与灵活性,并进一步提高数据采集效率。
此外,我们还向产业链后端延伸,构建了完整的“Real- to- Sim- to-Real”数据应用闭环:从数据采集开始,经过整合、清洗、标注,再到仿真环节,最终落地到实际执行,打通了整个数据流转与应用的通路。这些就是我们现阶段重点推进的工作。同时我们的单条数据采集价格现在已经基本是国外同行的1/10。
机器人大讲堂:是否考虑会做一些技能的原子化封装?
元客视界CTO陈溥:目前我们在考虑把人体标准动作集重定向到不同的机器人上实现长序列标准化动作的封装。
机器人大讲堂:未来咱们这套系统还会持续做哪些优化迭代吗?
元客视界CTO陈溥:未来我们将持续深耕光学与惯性融合方案,进一步提升采集端精度与效率。第二,我们正积极联合大模型技术公司,提供结构化数据以优化其训练效率,同时致力于增强模型泛化能力并与仿真平台实现协同。因此,采集端、仿真端、训练端这三个方向都将是我们持续发力的重点。鉴于构建全栈能力需要协同行业力量,我们将携手领域内合作伙伴共同推进。
相关文章
2025-08-280阅读
2025-08-280阅读
2025-08-280阅读
2025-08-280阅读
2025-08-280阅读
2025-08-280阅读
2025-08-280阅读
2025-08-280阅读
2025-08-280阅读
2025-08-280阅读