窝牛号

人工智能加速机器人快速适应不断变化的现实世界复杂多变的环境

人类可以相对轻松地在岩石上、泥泞中、上下山丘、厚地毯上和有弹性的蹦床上行走。Facebook可以在疲惫的肌肉或扭曲的脚踝以及携带各种形状、大小和重量的物体时这样做。为了实现这一目标,Facebook不断地对身体和脚下不断变化的状况进行近乎即时的调整。

为了在现实世界中取得同样的成功,步行机器人还必须适应它们遇到的任何表面、携带的物体以及所处的条件——即使它们以前从未接触过这些条件。并且为了避免跌倒并可能遭受损坏,这些调整必须在几分之一秒内发生。

今天,来自 Facebook AI、加州大学伯克利分校和卡内基梅隆大学计算机科学学院的一组研究人员宣布了快速运动适应 (RMA),这是人工智能的一项突破,使腿式机器人能够实时智能地适应具有挑战性的、陌生的新事物。地形和情况。RMA 使用两种策略的新颖组合,两者都完全在模拟中学习——通过强化学习 (RL) 训练的基本策略和使用监督学习训练的适应模块。重要的是,通过 RMA,机器人展示了所有智能代理的基本能力——适应环境因素的能力,例如突然推在上面的背包的重量或新表面上的摩擦量,而不依赖于任何视觉输入。

到目前为止,有腿机器人要么已经针对它们将居住的环境进行了完全手工编码,要么通过手工编码和学习技术的结合来教授它们在其环境中导航的能力。RMA 是第一个完全基于学习的系统,通过探索和与世界互动,使有腿机器人能够从头开始适应环境。

Facebook的测试表明,当在不同的表面、斜坡和障碍物上行走时,以及在给定不同的有效载荷时,支持 RMA 机器人的性能优于替代系统。这需要超越复杂的手工编码,因为很难或不可能对机器人进行预编程以适应现实世界的所有条件,无论是不同类型的地毯、更深的泥坑还是有弹性的蹦床。此外,为了可靠地工作,机器人不仅必须能够适应不同的负载,还必须能够适应预期的磨损,比如脚底的凹痕、轻微磨损的部分,或者无数其他不可预测的变化。发生在现实世界中。因为它的能力完全基于它遇到的东西,所以支持 RMA 机器人可以适应程序员从未考虑过的情况。

手动编码的改进可以提高机器人在受控环境中的性能,但真正适应现实世界中发现的无限变化的唯一方法是教机器人实际适应,类似于人们的学习方式。

赋予机器人这种适应不断变化的现实世界条件的能力,需要通过数百万次重复来教他们,而做到这一点的最佳方法不是在现实世界中,在那里他们可能会在学习过程中损坏或磨损,而是在模拟中。RMA 一直使用端到端学习,甚至直接输出关节位置,而不依赖预定义的腿部运动或其他控制原语。

然而,当这些技能首先在模拟中学习,然后在现实世界中部署时,就会出现许多挑战。模拟器中的物理机器人及其模型通常在小而重要的方面有所不同。例如,在发送控制信号和执行器移动之间可能存在轻微的延迟,或者脚上的磨损使其比以前不那么滑,或者关节的角度可能偏离百分之一度。

物理世界本身也呈现出复杂性,以自由空间中运动的刚体为模型的模拟器无法准确捕捉。床垫或泥坑等表面在接触时会变形。在模拟中相当标准化的环境在现实世界中变得更加多样化和复杂,尤其是当考虑到室内和室外空间中可能存在的众多地形时。当然,现实世界中的因素从来都不是一成不变的,因此腿式机器人能够掌握的现实世界环境可能与另一个完全不同。

在现实世界中进行模拟和部署培训

RMA 通过使用两个不同的子系统来克服这些挑战:基本策略和适配模块。

基本策略是在 RL 模拟中学习的,使用精心策划的有关不同环境的信息(例如摩擦量以及有效载荷的重量和形状)。Facebook设置了不同的变量——模拟更滑或更少滑的地面或斜坡的坡度——因此它学习不同条件的正确控制,Facebook将关于这些变量的信息编码为“外在变量”。

Facebook不能简单地仅使用这个基本策略来部署机器人,因为Facebook不知道它在现实世界中会遇到的实际外在因素。因此,Facebook依赖于机器人自学的关于周围环境的信息——基于其最近身体运动的信息。Facebook知道,关节的实际运动与命令的预期运动之间的差异取决于这些外在因素。例如,突然的腿部障碍物会阻止机器人的腿,但也会显示有关其周围地面高度的信息。同样,在柔软的表面上,随着脚的下陷,腿会延伸得更远,而在坚硬的表面上,它会更快停止。

由于Facebook知道机器人在模拟中遇到的实际外在因素,Facebook可以使用监督学习来训练适应模块,以根据机器人状态的最近历史来预测它们。

通过基本策略和适应模块的这种组合,机器人可以在几分之一秒内适应新的条件。

使用先前基于 RL 的方法训练的机器人需要几分钟时间,有时还需要人工干预才能适应新条件,这使得它们在现实世界中不切实际。

当启用 RMA 的机器人部署时,基础策略和自适应模块并行工作——基础策略运行速度更快,自适应模块运行速度更慢——使机器人能够执行鲁棒的自适应运动,无需任何微调。以完全不同的频率异步运行这两个策略也有助于使用小型机载计算部署 RMA,就像Facebook的机器人一样。小基策略可以保持机器人以高频行走,而较大的自适应模块可以在准备好时以低频发送外部向量。异步运行这两个策略还为有些不可预测的硬件速度和时间增加了健壮性。

Facebook的实验表明,支持 RMA 的机器人成功地穿越了几个具有挑战性的环境,其性能优于非 RMA 部署,Facebook使用相同的策略执行了所有真实世界的部署,而没有任何模拟校准或真实世界的微调。

该机器人能够在沙滩、泥泞、远足小径、高草和泥土堆上行走,在Facebook所有的试验中都没有失败。在 70% 的试验中,机器人成功地沿着远足小径走下台阶。在 80% 的试验中,它成功地通过了水泥桩和鹅卵石堆,尽管在训练期间从未看到不稳定或下沉的地面、有障碍的植被或台阶。当它以 12 公斤的有效载荷(相当于其体重的 100%)移动时,它也能以很高的成功率保持高度。

构建多种形式的适应性更强的人工智能

RMA 是机器人技术的一项激动人心的进步,它可以在现实世界中部署新型、高效且适应性强的步行机器人。这项工作还展示了人工智能的进步如何改变机器人领域,增强机器人的能力,同时使这些改进更适合新条件和应用。纯粹依赖学习的方法可能有能力使用更便宜、更不准确的硬件,这将在未来大幅降低机器人的成本。提高效率和降低成本可能意味着,有朝一日,支持 RMA 的机器人可以以多种身份服务,例如搜索和救援行动中的助手,特别是在对人类来说太危险或不切实际的领域。

更广泛地说,Facebook希望与 RMA 的合作将帮助研究人员构建能够实时适应不可预见、快速变化和高度复杂的条件的人工智能。

除了机器人技术之外,RMA 还指出了构建 AI 系统的方法,该系统可以通过利用动态数据来了解特定算法运行的上下文,从而实时适应许多困难的挑战。这是一个广泛的长期挑战,需要在 RL 之外的许多子领域取得进展。但Facebook很高兴看到人工智能研究社区如何在Facebook与 RMA 的合作基础上进一步发展——无论是在机器人技术还是其他领域。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1