2022
07/26
相关创新主体

创新背景

当前机器人学习的核心挑战之一是使机器人能够按照人类的高级指令执行各种各样的任务。这就要求机器人能够理解人类的指令,并配备大量不同的动作,以便在现实世界中执行这些指令。

对于导航中的指令遵循任务来说,此前的工作主要集中在从带有文本指令注释的轨迹中学习。这样可能可以实现对文本指令的理解,但数据注释的成本问题阻碍了这种技术的广泛使用。另一方面,最近的工作表明,自监督训练的目标条件策略可以学习到稳健的导航。这些方法基于大型的、无标记的数据集,通过事后重新标记来训练基于视觉的控制器。这些方法具有可扩展性、通用性和稳健性,但通常需要使用基于位置或图像的笨重的目标规范机制。

 

创新过程

UC 伯克利、谷歌等机构的研究者的这项研究结合了现有两种方法的优势,使机器人导航的自监督系统能够适用于没有任何用户注释的导航数据,利用预训练模型的能力来执行自然语言指令。研究者使用这些模型来构建一个「界面」,用来向机器人传达任务。这个系统借助于预训练的语言和视觉 - 语言模型的概括能力,使机器人系统能够接受复杂的高级指令。

研究者观察到,可以利用在视觉和语言数据集的大型语料库上训练的现成预训练模型(这些语料库广泛可用,并显示出零样本泛化能力)来创建界面,以实现具体的指令跟踪。

为了实现这一点,研究者结合了视觉和语言的 robot-agnostic 预训练模型以及预训练导航模型的优点。具体而言,他们使用视觉导航模型(VNM:ViNG)来将机器人的视觉结果创建为环境的拓扑「心理地图」。给定自由形式的文本指令,使用预训练的大型语言模型(LLM:GPT-3)将指令解码为一系列文本形式的特征点。然后,使用视觉语言模型(VLM:CLIP)通过推断特征点和节点的联合似然概率来在拓扑图中建立这些文本特征点。之后使用一种新的搜索算法来最大化概率目标函数,并找到机器人的指令路径,然后由 VNM 执行。

实验表明,LM Nav 能够在 100 米的复杂郊区导航过程中,在新环境中成功地遵循自然语言指令,同时使用细粒度命令消除路径歧义。

 

LM-Nav 模型概览

1、 给定目标环境中的一组观测值,使用目标条件距离函数,也就是视觉导航模型(VNM)的一部分,推断它们之间的连通性,并构建环境中连通性的拓扑图。

2、大型语言模型(LLM)用于将自然语言指令解析为一连串的特征点,这些特征点可以作为导航的中间子目标。

3、视觉 - 语言模型(VLM)被用来在特征点短语上的基础上建立视觉观察结果。视觉 - 语言模型推断出一个关于特征点描述和图像的联合概率分布(形成上述图形中的节点)。

4、利用 VLM 的概率分布和 VNM 推断的图连接性,采用一种新颖的搜索算法,在环境中检索出一个最优指令路径,该指令路径(i)满足原始指令,(ii)是图中能实现目标的最短的路径。

5、 然后,该指令路径由目标条件策略执行,该策略是 VNM 的一部分。

 

 

创新关键点

本研究在大规模模型的基础上建立了一个新的导航方法(LM Nav),一个具体的指令跟踪系统。

创新性地结合了三个大型的独立预训练模型——视觉导航模型(VNM:ViNG)、语言模型(LLM:GPT-3)、视觉语言模型(VLM:CLIP)。

一个利用视觉观察和物理动作(VNM)的自监督机器人控制模型,一个将图像置于文本中但没有具体实施环境(VLM)的视觉语言模型,以及一个大型语言模型,该模型可以解析和翻译文本,但没有视觉基础或体现感(LLM),以便在复杂的真实环境中实现长视野指令跟踪。

 

创新价值

这项研究首次将预训练的视觉和语言模型与目标条件控制器相结合的想法实例化,以在目标环境中不进行任何微调的情况下得出可操作的指令路径。值得注意的是,这三个模型都是在大规模数据集上训练的,具有自监督的目标函数,并且在没有微调的情况下现成使用,训练 LM Nav 也不需要对机器人导航数据进行人工注释。

智能推荐

  • 通过磁力产生扭矩的靶向给药微型机器人

    2022-07-29

    来自斯坦福大学的研究团队开发出了一种微型机器人。这个由磁场驱动的机器人能够在人体内持续运动,并且能够通过磁力产生扭矩改变运动方向和越过障碍。通过改变磁场的强度和方向,机器人能够单次移动10倍于自身长度的距离。这一最新研制的机器人,是该团队开发过的最强大、功能最多的无线机器人。研究成果刊登在在《自然·通讯》(Nature Communications)杂志上。

    涉及学科
    涉及领域
    关键词 
  • 开发“自传式记忆”系统加强人机互动

    2022-08-18

    通过开发自传式记忆系统,使机器人能够存储传播人类知识,增强人机互动联系,方便空间站中的宇航员工作。

    涉及学科
    涉及领域
    关键词 
  • 利用人工智能和机器人快速识别染病植株

    2022-08-18

    康奈尔大学的生物学家和科学家开发了一项技术,可以利用机器人和人工智能来识别感染了毁灭性真菌的葡萄植物。这项工作大大加快了葡萄育种和遗传学工作的步伐。

    涉及学科
    涉及领域
    关键词 
  • 压阻式传感器帮助机器人感知运动和位置

    2022-08-17

    麻省理工学院的研究团队以kirigami剪纸为灵感,将具有“压阻性”的导电材料片切割成可灵活拉伸的矩形条,制作出了一种弹性传感器,从而为机器人提供不依靠视觉系统就能够对运动和位置进行感知的能力。这是迈向更复杂的自动化控制的第一步。

    涉及学科
    涉及领域
    关键词