科学家开发AI触觉-视觉融合系统,突破机器人触觉闭环控制

资讯 » 新科技 2025-07-14

机器人能否像人类一样完成削黄瓜、擦花瓶等精细动作?要回答这个看似简单的问题,需要深入分析其中的技术挑战。

以削黄瓜为例,这一操作需要削皮刀始终紧贴黄瓜表面并施加适当的力,对人类而言轻而易举,但对机器人系统却构成重大挑战——亚毫米级的误差就可能导致整个任务失败。


(arXiv)

当前机器人技术在这一领域面临双重困境:

首先,单一视觉模态的感知精度难以满足需求,而引入触觉/力觉等多模态信息又存在系统整合的根本性难题;其次,现有模仿学习算法虽然通过动作序列预测机制实现了平滑轨迹生成和减少累计误差,但其开环控制特性将实际闭环控制频率限制在1-2hz,这种滞后性严重阻碍了实时触觉反馈的响应能力。

上海交通大学卢策吾教授团队与清华大学许华哲助理教授团队合作,通过多模态融合、提高闭环控制频率与高质量数据采集的协同设计,创新性地解决了这一问题。他们的研究使机器人在接触密集型任务的完成效果提升了 35% 以上,即使在人类干扰下也能完成削黄瓜、擦花瓶等传统机器人难以完成的精细动作。

他们首先开发了新型触觉数据采集系统 TactAR,通过 AR 技术提供实时处理的触觉/力反馈。值得关注的是,TactAR 仅需一个成本为500 美元的消费级 VR 头显(meta Quest3),这对于大规模推广和应用具有重要意义。

在算法架构上,他们提出的 RDP(Reactive Diffusion Policy)算法融合了快慢双网络结构:首次使触觉/力觉信号直接参与闭环控制,构建了“语义规划-物理响应”的完整力觉控制链路。该算法既保留了扩散策略预测未来(例如 1 秒后)复杂动作序列的优势,又在保持动作连续性的同时实现了接触丰富任务中的快速响应,通过高频闭环修正机制将控制频率提升至数十赫兹。


图丨TactAR 系统和 RDP 算法(arXiv)

实验数据验证了该系统的突破性性能。在动态干扰测试中,当人类操作者随机下降、旋转黄瓜或对花瓶制造突发扰动时,系统通过高频率的触觉/力觉反馈,展现出显著的实时补偿能力,将稳定维持操作位置及施加力的精度。这种将动作序列预测与实时反馈调整相结合的技术路径,为需要高精度人机协作的复杂操作场景提供了全新的解决方案范式。

审稿人之一对该研究评价称:“该设计与经典的基于视觉的局部规划器+快速阻抗控制器类似。从直观上看,这种设计非常合理——局部触觉信息用于生成高频动作,而全局视觉输入则用于制定短期未来的粗略规划。”另一位审稿人则认为,该研究对人类示范驱动的视觉-触觉策略学习领域作出了重要贡献。

日前,相关论文以《Reactive Diffusion Policy:面向接触密集型操作的快慢视觉-触觉策略学习》(Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation)为题发表在预印本网站arXiv并入围机器人顶会 RSS 2025(Robotics: Science and Systems)最佳学生论文提名。

来自上海交通大学的博士生薛寒、助理研究员任杰骥和博士生陈文迪是论文的共同第一作者,上海交通大学卢策吾教授和清华大学许华哲助理教授共同指导本项目。


(https://reactive-diffusion-policy.github.io)



首次实现基于数据学习的触觉/力觉信号闭环控制

该系统的设计受当前机器人研究领域现状的启发:依赖人工调参的传统力控算法虽能实现精密操作(如柔性装配、精密打磨),却严重受限于场景特异性;而主流的视觉模仿学习方法虽具泛化性,但缺乏实时反馈能力,难以应对动态环境。

为打破这种范式,研究团队创新性地提出数据驱动的 RDP 快慢网络架构,实现了力觉信息从高层规划宏观动作轨迹到低层执行高频闭环微调的深度整合。


图丨 RDP 框架概述(arXiv)

快慢网络神经架构 RDP 本质上是模仿人类双手协同的操作模式——人类在执行任务时并非全程追求极高的精度,而是采用“快慢双系统”策略:在接触物体前,大脑会规划一个粗略的运动轨迹和未来可能的反馈信号(慢系统);一旦产生接触,小脑和肌肉系统立即接管,通过高频触觉反馈实时微调关节角度与肌肉张力(快系统),即使不用眼看也能完成精细抓取。

“这种双层架构的设计既避免了人工参数调试繁琐,又通过端到端学习自动适应了不同任务场景,为通用触觉/力觉-视觉操作机器人构建奠定基础。”陈文迪对 DeepTech 表示。


图丨陈文迪(陈文迪)

RDP 算法将这一原理映射为快慢双网络结构,这种架构本质上构建了“语义层-物理层”的分层控制:慢网络处理语义稳定的长期规划,如“沿黄瓜长度方向移动”;快网络处理物理敏感的即时调整,如“接触力超过阈值时回退 0.5mm”。两个网络各司其职又相互补充,最终实现了既有宏观任务理解力,同时具备微观物理适应性的机器人操作能力,为复杂接触任务提供了兼具鲁棒性与精度的全新解决方案。

在性能验证方面,RDP 系统在削皮、擦花瓶和双臂搬运三项挑战性任务中分别取得了 0.90、0.87 和 0.70 的平均任务完成效果,相较现有视觉模仿学习方法性能提升超过 35%,在精度、适应性和反应速度等方面均展现出显著优势。


图丨TactAR 操作系统概述(arXiv)

这项研究充分体现了机器人领域研究的典型特点——系统层面的持续积累与硬件迭代的重要性。在系统搭建阶段,研究团队深入解决了硬件交互中的关键问题:从脆弱的传感器保护到延迟补偿,这些基础工作为后续研究奠定了坚实基础。更重要的是,这套系统在后期的实验中展现出巨大价值,不仅确保了高质量数据采集,更大幅提升了算法开发效率。

在算法开发阶段,研究团队意外地发现:原本为视触觉传感器设计的策略,无需特殊调整就能完美适配噪声特性完全不同的力传感器。具体而言,RDP 算法在 GelSight Mini 触觉传感器、MC-Tac 触觉阵列以及机器人内置关节扭矩传感器等多种传感模态上均表现出稳定的控制性能,这种跨传感器的通用适配能力充分证明了该算法在硬件兼容性和系统鲁棒性方面的突出优势。


(arXiv)

陈文迪指出,“这一反直觉的现象揭示了我们的网络架构和 RDP 设计具有出色的传感器泛化能力——力传感器的高频噪声未被特殊处理却表现出最佳稳定性,这与传统方法(如需要傅里叶变换或独立处理)形成鲜明对比。”

这项成果不仅延续了卢策吾实验室在力觉-视觉融合策略上的技术路线,更通过与清华大学许华哲团队在触觉学习方面的合作,验证了高频触觉/力觉融合在灵巧操作中的潜力,为后续构建通用多传感器机器人模型奠定了基础。



有望用于居家服务与柔性制造场景

随着触觉数据采集标准化的推进与算法迭代优化,该技术有望率先从家庭服务等高频接触场景落地应用,并逐步渗透至工业协作领域,最终实现“从生活到生产”的全场景覆盖。

该系统在居家服务场景中展现出显著优势。研究团队创新性的数据驱动 RDP 方法突破了传统局限,泛化的接触式调节能力可以处理多样化物体操作任务,无需针对每一任务人工设计规则,为智能居家场景的通用化操作奠定了基础。

再比如养老护理场景中,对人际交互安全性要求极高,而该系统的快速响应特性可为未来机器人与人类实时互动提供了关键支持,有望提升服务可靠性和安全性。


(arXiv)

工业制造领域,该技术同样展现出独特的应用价值。当前传统工业制造系统(如柔性制造线和食品加工产线)普遍面临单一工件适配的生产瓶颈。相比之下,该技术呈现出显著优势:其数据驱动特性支持快速任务适应能力,同时系统具备的人机协作友好性为制造业实现高效人机协同生产提供了创新解决方案。


(arXiv)

为实现技术的规模化应用,该团队认为,“提高硬件可靠性与算法性能”的协同发展路线非常重要:在部署环节,需要开发低成本且可靠的工业级传感器,并充分发挥算法的抗噪能力来补偿硬件精度的降低;在模型性能上,还需要进一步提高性能上限以满足工业场景的需求。这种策略旨在显著降低整体成本的同时提高可靠性,加速技术商业化进程。

在技术指标优化方面,他们确立了三个关键目标维度:首先将 RDP 系统的绝对成功率提升至 99.9%;其次提高其执行速度直至达到熟练工人水平;最后通过开发更具泛化能力的策略学习方法,减少数据需求并提升新任务适应能力,从而降低工业部署门槛。

未来可能的具体的技术升级将聚焦两个核心组件:TactAR 数据采集装置将通过一些更好用的触觉/力觉反馈系统改进提升操作直观性并进一步提高数据质量;RDP 控制算法将结合 VLA 框架扩展至多任务场景,并迁移至高自由度灵巧手平台,以支持更复杂的应用任务。

基于现有研究框架,该团队正重点攻关“力觉/触觉驱动的复杂操作”这一核心方向,着力突破更有效的物理交互数据采集方案以及更通用的触觉/力觉信号学习算法两大关键技术。“这些技术突破将为接触密集型操作等传统难题提供系统性解决方案,推动机器人操作技术向更高水平发展。”陈文迪说。

参考资料:

1.https://arxiv.org/abs/2503.02881

运营/排版:何晨龙



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。