不只会后空翻，波士顿动力的人形机器人Atlas开始“打工”了

原文：Training a Humanoid Robot for Hard Work

作者：Atlas 机器人行为总监 Alberto Rodriguez、研究工程师 Shane Rozen-Levy 和 Vinay Kamidi

编译：Felix, PANews

这款人形机器人与您之前见过的任何机器人都截然不同。在最新的视频中，有些显而易见：Atlas 机器人将躯干旋转 180 度，蹲下身子抬起一个迷你冰箱，然后把它送到一位正在休息的工程师面前。但也有一些不太明显的细节，例如，机器人如何充分利用其手臂、腿部和躯干来完成人类难以完成的搬运工作，以及一些在视频中完全无法展现的细节，如机器人研发的速度和行为的精准度。

这的确令人耳目一新，但为什么要这样做？

Atlas搬运迷你冰箱

波士顿动力公司的其他机器人旨在自动化最繁重的工作。Stretch 机器人在极热环境下，能够自主地从卡车上卸下重达 23 公斤的箱子。Spot 机器人每天都会在完全相同的时间沿着相同的巡检路线进行同样的测量，及早发现工厂车间出现的问题迹象。这些工作虽然单调乏味，但却需要高度关注细节，而 Stretch 和 Spot 每天都在提供这种任务。

Atlas 的目标则是在工厂、仓库或建筑工地等需要极高力量、耐力和灵巧性的场景中，实现非常广泛的功能。波士顿动力公司正致力于将 Atlas 打造为用于体力劳动的通用工具。为了达到满足真实环境所需的性能和可靠性，无论是在硬件还是在行为控制上都需要实现跨越式的提升。

以下是一系列精心设计的实验，展示了其在硬件和行为方面取得的重要进展。在 Atlas 于 1 月份公开亮相后的短短几周内，就展示了人形机器人在力量、灵活性和全身控制方面的性能。

面向现实世界的物理智能

在过去的几年里，市场见证了行为架构的根本性转变，这种转变源于演示数据驱动，并展现出日益增强的泛化能力。这是实现人形机器人承诺的关键要素：适应性强、学习速度快、易于重新分配任务。这些架构不仅可以驱动桌面机械臂的行为，还可以驱动完整的人形机器人执行现实世界的任务。

尽管目前最先进的主流方法能做出出色的行为，但也存在一些局限性：它们过度依赖持续的摄像头反馈，不仅将其用于理解世界，还用于引导控制循环；它们与环境的交互仅限于机器人非常有限的几个表面，通常是手指，甚至经常只局限于指尖；而且几乎完全专注于轻量级任务。

真正的工作，尤其是那些繁重的体力劳动，需要拓宽对“物理智能”的定义。当搬运物体时，团队会利用身体的任何部位来承受重量，并通过触觉来适应物体的形状、质量和刚度。

你不可能仅仅通过观察和用手就举起一台冰箱。你必须做好准备，预判它的重量，身体前倾，让身体去适应它的形状、重量，并判断自己是否能够举起它。真正的工作发生在交互过程中。人形机器人应该能够用前臂和二头肌夹住箱子，能够用膝盖将重物从地面抬到大腿上，能够将又长又重的物体扛在肩上，就像能够轻松地抱起冰箱一样。

Atlas 使用强化学习 (RL) 来学习如何抬起冰箱，在模拟环境中通过练习海量版本的冰箱举重动作来实现。最难的部分不在于看到冰箱或知道如何抬起它，而在于学会适应 Atlas 在现实世界中可能遇到的任何形态的冰箱。这是一个控制和感知相结合的问题，其中的感知是通过身体的本体感觉隐式完成的。驱动这些行为的策略已经学会了适应各种变化，比如冰箱的位置、质量、地面的摩擦力以及与冰箱的抓地力，或者冰箱在躯干、手臂和手之间安放的位置配置。这种适应水平是物理智能最基础的构建模块之一。

承载重负的机器人

今天展示的硬件也别具一格。这一代 Atlas 机器人不仅专为满足实际工作所需的灵活性和力量而设计，而且兼具大规模生产所需的简洁性和可靠性。人形机器人的外形设计固然有其优势，但通过一些策略性的突破，也能大幅提升其性能和效率。

以下是一些可能乍看之下并不明显的亮点：

极简的执行器：在机器人身体上只使用了两种类型的执行器。使其能专注于更大规模地制造更高效、更强大的执行器，从而最终降低成本。所有这些都是旋转执行器，它们在模拟中更容易被准确地呈现，这对于前文提到的利用本体感觉反馈进行高性能强化学习至关重要。
高度重复的组件：在身体上尽可能多地重复使用相同的子组件。两条腿和两条手臂是相同的。肩部对肩部、骨盆对骨盆的结构也是完全一样的。
无限旋转关节：这些执行器可以无限旋转。通过消除关节间的所有线缆来实现这一点，进而消除了导致执行器硬件故障的主要因素。反过来，这也降低了 Atlas 的客户成本，并赋予 Atlas 独特的高效移动方式。
对称的足部：因为 Atlas 具有同等出色的前进和后退能力，所以它的双脚前后是对称的。
易于维护：手臂、腿部、手部和头部都是现场可替换单元，只需几分钟即可完成更换。

移动迷你冰箱展示了力量、全身协调性以及对本体感觉反馈的利用。这成为了工业工作的一个基准：在制造环境中搬运那些通常需要两人合力的笨重物品。

但一些不太实用的任务也具有意义。例如，一个 90 公斤的机器人之所以能做倒立和后空翻，是因为拥有出色的热管理系统，这意味着 Atlas 能在炎热的环境中工作。而且这些行为还能训练其他可迁移的技能：例如，如何敏捷平衡地移动，如何在受限环境下充分活动，以及如何从滑倒和跌倒中恢复。

训练过程

Atlas 作为一款产品和研究平台，目标之一是能在一天内完成新行为的训练和部署。虽然这次演示并没有达到这个速度，但 Atlas 能如此稳定地完成冰箱移动任务，速度已经远超预期。

以下是训练机器人的方法：

参考轨迹：训练新行为，要使用参考轨迹，即告诉策略应该做什么的数据。这可以是远程操作演示、动画轨迹，或者描述一个更抽象的目标。对于冰箱移动任务，首先使用了一个简单的动画，以便充分利用 Atlas 超人般的运动范围。
激励：然后，设定一个目标，让机器人尽可能地跟随动画轨迹完成任务。通过建立奖励机制来强化期望的行为（将重物保持在 Atlas 的夹爪中，并维持相同的位置和方向），同时还会对机器人和冰箱施加推拉干扰，使其能够在受到干扰时仍然专注于主要任务。
模拟：Atlas 在图形处理器 (GPU) 上并行运行模拟程序，进行了数百万小时的动作练习。通过大量的模拟经验，Atlas 学会了根据冰箱的各种变化调整自身行为。
真实机器人：模拟结果良好后，在硬件上进行了测试。模拟只能在一定程度上帮助，而硬件测试才是不断改进的根本。
迭代：一旦获得了策略在真实机器人上表现的实际数据，就可以回到训练环节进行调整，并强化该行为。

缩小仿真与实际差距

企业版 Atlas 最显著的改进之一是其模拟环境的高保真度。Atlas 的仿真与实际差距非常小；可以轻松地进行训练、测试并快速迭代。通常来说，如果一个行为在模拟中看起来不错，那么它在机器人上的表现也会很好。

仿真与实际差距指的是策略在仿真环境中的性能与其在真实硬件上的性能之间的差异。仿真中的假设和数学简化无法捕捉现实世界的复杂性。诸如摩擦、延迟或传感器噪声等细微变化和变量都会累积起来，导致物理世界中出现故障。

尽管可能永远无法彻底消除这种差距，但已经非常接近了。Atlas 团队建立了一套严格的流水线和系统支持，用于测试和开发。今天训练出一个策略，明天就可以带着成熟的策略在机器人上进行测试，并收集数据以推动下一次迭代和新行为的发展。

是什么使得仿真与实际之间的差距如此之小？

高保真硬件：与之前的平台不同，该平台仅使用两种功能强大、高效的执行器，并且完全对称。这种简洁的设计和结构，以及执行器的高效性，意味着可以在仿真中以极高的精度对机器人进行建模。由于机器人模型与实际硬件非常接近，因此在部署训练好的策略时，保真度问题也更少。仿真结果与实际结果完全一致。

域随机化：为了使策略更加稳健，并没有在理想环境下训练机器人。通过采用域随机化方法，在整个训练过程中对冰箱重量、地板摩擦力或电机功率等参数进行微调。训练过程中的微小随机变化，能让最终行为在面对现实世界的各种变数时更具韧性。例如，移动冰箱的策略最初是针对 50-70 磅的负载进行训练的，但机器人成功地移动了一个总重量超过 100 磅的装满物品的冰箱。团队也不会在完美条件下进行测试。团队把实验室里各种各样的物品放进冰箱；重量不一致，分布也不均匀，而且在移动过程中会在冰箱内发生位移。通过一套完善的策略，所有这些干扰因素都可以由 Atlas 来消除，而不是由工程师来处理。

人员与流程：最后，流程和操作旨在简化培训、测试和实验。团队建立了一套严谨的流程，并且有大量人员在幕后付出。团队与众多负责机器人实际运行的团队紧密合作，包括硬件设计团队、维修技术人员和机器人队长。整个组织齐心协力，致力于使 Atlas 尽可能可靠、高效，同时不断突破新功能的极限。

相关阅读：宇树上市日，英伟达发布人形机器人