原文作者:
Pannag Sanketi,Google DeepMind 机器人团队高级工程师兼技术主管。
Heni Ben Amor,亚利桑那州立大学副教授,互动机器人实验室主管。
几乎每天,全球各地的学术实验室或商业公司都在发布令人瞩目的新型机器人平台。特别是在人形机器人领域,它们协助工厂作业的能力正日益增强,并有望最终拓展至家庭和医院等场景。然而,要让这些机器人真正具备实用价值,它们必须拥有复杂的“大脑”来精确控制其物理躯体。
传统上,为使机器人达到预期的性能表现,专家需要投入大量时间编写程序,精心设计复杂的行为脚本,并细致且反复地调整参数(如控制器增益或运动规划权重)。尽管机器学习(ML)技术展现出很大的潜力,但要让机器人学习全新的复杂行为,目前仍普遍需要大量的人工监督和系统性再设计。
在 Google DeepMind,我们一直在思考一个核心问题:如何让机器人实现更全面、更持续的学习与适应能力,从而在每次取得重大性能提升或掌握新技能时,减少对专家干预的依赖?
这一思考始终是我们机器人研究的核心驱动力。我们正在探索一种新的研究范式:让两个机器人智能体(agent)在相互对抗的环境中,达到更高的自主性,实现自我提升。这种范式旨在超越那些仅可以执行预先编程的固定任务或适应性有限的机器学习模型,转而训练出能够在实际操作中学习广泛技能的 agent。
基于我们在机器学习领域的前期工作,例如 AlphaGo 和 AlphaFold 项目,我们将目光聚焦在了乒乓球这项高难度运动上,将其作为理想的测试平台。
我们之所以选择乒乓球,是因为这项运动在一个相对受限但同时又高度动态的环境中,体现了机器人技术所面临的最严峻挑战。
要打好乒乓球,机器人必须掌握多种复杂技能:除了需要敏锐的感知能力外,还必须具备极高的精准控制力,从而以恰当的角度和速度拦截对方来球,并通过巧妙的战略决策来战胜对手。这些要素共同使得乒乓球成为开发与评估学习算法的绝佳领域——这些算法需要能够处理实时交互、复杂的物理计算、高级推理,并制定出适应性强的策略。
而这些能力,不仅可直接应用于制造业等场景,甚至可能在未来适用于非结构化的家庭环境。
自我提升挑战
传统的机器学习方法很难实现持续、自主的学习。以模仿学习为例,机器人通过模仿专家行为来学习,通常要求为每一项技能或其变体提供大量的人类演示数据;如果我们想让机器人持续学习新任务或随着时间的推移不断提升性能,这种对专家数据收集的依赖便会成为一个瓶颈。
同样地,强化学习通过奖励或惩罚来引导 agent 进行试错训练,但这通常需要人类设计师精心设计复杂的数学奖励函数,从而精确捕捉多维任务中的预期行为,且这些函数还需要随着机器人需要提升或学习新技能而进行调整,这无疑限制了其可扩展性。
从本质上讲,这两种成熟的机器学习方法都涉及大量的人类参与,尤其是在目标设定为让机器人在初始编程之后仍能持续自我提升的情况下。
因此,我们提出了一个直接的挑战:机器人是否能够在学习与提升的循环中,以极少甚至无需人类干预的方式,自主地学习并提升其技能?
在竞争中学习:机器人vs.机器人
我们探索的一种创新方法借鉴了 AlphaGo 的策略:让 agent 通过与自身竞争来学习。我们尝试让两台机器人手臂进行乒乓球对决,这个想法虽然简单,却非常有效。当其中一台机器人发现更优策略时,其对手被迫随之适应并提升自身能力,从而形成一个技能水平持续提升的循环。
为了支撑这种学习范式所需的大规模训练,我们设计了一个完全自主的乒乓球环境。该系统可以持续运行,具备自动球收集的功能,并支持远程监控与控制,这使得我们能够在无需人工干预的情况下进行长时间的实验。
作为第一步,我们通过强化学习在模拟环境中成功训练了一个机器人 agent,并将其和复制版本部署在两个机器人上,使它们能够进行合作式对打。随后,我们在真实的机器人对战环境中对 agent 进行了数小时的微调,最终获得了一种能够维持长时间对打的策略。接着,我们将研究重点转向了竞争性的机器人对战问题。
在竞争性对战中,原本的合作式 agent 表现并不理想。这其实是可以预料的,因为在合作对打阶段,球的来回通常会稳定在一个相对狭窄的区域,这限制了 agent 能够击回的球的分布范围。
我们的假设是,如果继续在竞争性环境中进行训练,并且奖励每个机器人击败对手的行为,那么这种球的分布范围会逐渐扩大。尽管前景看起来不错,但在现实世界中通过竞争性自我对战来训练系统面临着挑战。由于模型规模的限制,分布范围的扩大实际上相当严重。
本质上,模型在有效学习新击球方式的同时,难以避免地会遗忘旧的击球方式,并且在训练过程中迅速陷入了局部最优解:短暂的对决之后,一台机器人会打出对手难以回击的制胜球,而另一台机器人则束手无策。
尽管机器人间的竞争性对战仍然是一个重大难题,我们的团队同时也探索了机器人如何与人类进行竞争性对战。在训练初期,人类玩家通常更擅长保持球在场内,这增加了机器人可以学习的击球分布范围。我们仍然需要开发一种策略架构,其应该包括具有详细技能描述的低级控制器和负责选择低级技能的高级控制器,以及支持从模拟到现实零样本迁移的技术,从而使系统能够实时适应未曾遇到过的对手。
在用户研究中,尽管机器人在与人类顶尖玩家的对决中全部落败,但它在与初学者的对决中全部获胜,并在与中级玩家的对决中取得了约 50% 的胜率,这显示出其具备了相对稳定的业余人类水平。
凭借这些创新,再加上相比合作模式更优越的起点,我们已经处于一个有利的位置,可以重新聚焦于机器人间的竞争性训练,并继续推动系统的快速扩展。
详情查看:
当VLM成为AI教练
我们探索的另一个有趣思路是:视觉语言模型(VLM)是否能够扮演教练的角色,观察机器人的表现并提供改进建议?
该项目的一个关键洞见在于,VLM 可以用于实现可解释的机器人策略搜索。基于这一洞见,我们开发了SAS prompt(即 summarize 总结、analyze 分析、synthesize 合成)方法,其能够利用 VLM 的检索、推理和优化能力,通过迭代学习与适应机器人的行为,最终合成新的行为模式。我们的方法可以看作是一种新型可解释策略搜索方法的早期实践,并且搜索完全在 LLM 内部完成。
此外,这种方法无需依赖明确的奖励函数——VLM 能够直接根据任务描述中的观察结果来推断奖励。
因此,VLM 可以作为教练,持续分析“学生”(即机器人)的表现,并提供相应的改进建议。
迈向真正自主学习的机器人
突破传统编程和机器学习技术的局限性,对于机器人技术的未来发展至关重要。我们正在研究的方法,其目标正是减少对繁琐人类工作的依赖。我们的乒乓球项目,就探索了机器人自主获取并提升复杂技能的途径。
尽管仍面临重大挑战——例如,稳定机器人之间的学习过程,以及扩展基于 VLM 的教练系统——但这些方法无疑提供了独特的机会。我们对此持乐观态度,在这条道路上开展持续研究,将最终带来更强大、适应性更强的机器。这些机器能够学习在我们这个结构复杂的世界中有效且安全运作所需的各种技能。
这条探索之路充满挑战,但真正智能且有益的机器人伙伴所带来的巨大潜力,使得这项研究极具价值,值得我们不懈努力。
https://spectrum.ieee.org/deepmind-table-tennis-robots
翻译:学术君
如需转载或投稿,请直接在公众号内留言
相关文章
2025-07-245阅读
2025-07-245阅读
2025-07-245阅读
2025-07-245阅读
2025-07-245阅读
2025-07-245阅读
2025-07-245阅读
2025-07-245阅读
2025-07-245阅读
2025-07-245阅读