2022
07/26
相关创新主体

创新背景

当前机器人学习的核心挑战之一是使机器人能够按照人类的高级指令执行各种各样的任务。这就要求机器人能够理解人类的指令,并配备大量不同的动作,以便在现实世界中执行这些指令。

对于导航中的指令遵循任务来说,此前的工作主要集中在从带有文本指令注释的轨迹中学习。这样可能可以实现对文本指令的理解,但数据注释的成本问题阻碍了这种技术的广泛使用。另一方面,最近的工作表明,自监督训练的目标条件策略可以学习到稳健的导航。这些方法基于大型的、无标记的数据集,通过事后重新标记来训练基于视觉的控制器。这些方法具有可扩展性、通用性和稳健性,但通常需要使用基于位置或图像的笨重的目标规范机制。

 

创新过程

UC 伯克利、谷歌等机构的研究者的这项研究结合了现有两种方法的优势,使机器人导航的自监督系统能够适用于没有任何用户注释的导航数据,利用预训练模型的能力来执行自然语言指令。研究者使用这些模型来构建一个「界面」,用来向机器人传达任务。这个系统借助于预训练的语言和视觉 - 语言模型的概括能力,使机器人系统能够接受复杂的高级指令。

研究者观察到,可以利用在视觉和语言数据集的大型语料库上训练的现成预训练模型(这些语料库广泛可用,并显示出零样本泛化能力)来创建界面,以实现具体的指令跟踪。

为了实现这一点,研究者结合了视觉和语言的 robot-agnostic 预训练模型以及预训练导航模型的优点。具体而言,他们使用视觉导航模型(VNM:ViNG)来将机器人的视觉结果创建为环境的拓扑「心理地图」。给定自由形式的文本指令,使用预训练的大型语言模型(LLM:GPT-3)将指令解码为一系列文本形式的特征点。然后,使用视觉语言模型(VLM:CLIP)通过推断特征点和节点的联合似然概率来在拓扑图中建立这些文本特征点。之后使用一种新的搜索算法来最大化概率目标函数,并找到机器人的指令路径,然后由 VNM 执行。

实验表明,LM Nav 能够在 100 米的复杂郊区导航过程中,在新环境中成功地遵循自然语言指令,同时使用细粒度命令消除路径歧义。

 

LM-Nav 模型概览

1、 给定目标环境中的一组观测值,使用目标条件距离函数,也就是视觉导航模型(VNM)的一部分,推断它们之间的连通性,并构建环境中连通性的拓扑图。

2、大型语言模型(LLM)用于将自然语言指令解析为一连串的特征点,这些特征点可以作为导航的中间子目标。

3、视觉 - 语言模型(VLM)被用来在特征点短语上的基础上建立视觉观察结果。视觉 - 语言模型推断出一个关于特征点描述和图像的联合概率分布(形成上述图形中的节点)。

4、利用 VLM 的概率分布和 VNM 推断的图连接性,采用一种新颖的搜索算法,在环境中检索出一个最优指令路径,该指令路径(i)满足原始指令,(ii)是图中能实现目标的最短的路径。

5、 然后,该指令路径由目标条件策略执行,该策略是 VNM 的一部分。

 

 

创新关键点

本研究在大规模模型的基础上建立了一个新的导航方法(LM Nav),一个具体的指令跟踪系统。

创新性地结合了三个大型的独立预训练模型——视觉导航模型(VNM:ViNG)、语言模型(LLM:GPT-3)、视觉语言模型(VLM:CLIP)。

一个利用视觉观察和物理动作(VNM)的自监督机器人控制模型,一个将图像置于文本中但没有具体实施环境(VLM)的视觉语言模型,以及一个大型语言模型,该模型可以解析和翻译文本,但没有视觉基础或体现感(LLM),以便在复杂的真实环境中实现长视野指令跟踪。

 

创新价值

这项研究首次将预训练的视觉和语言模型与目标条件控制器相结合的想法实例化,以在目标环境中不进行任何微调的情况下得出可操作的指令路径。值得注意的是,这三个模型都是在大规模数据集上训练的,具有自监督的目标函数,并且在没有微调的情况下现成使用,训练 LM Nav 也不需要对机器人导航数据进行人工注释。

智能推荐

  • AI+房地产开发与管理 | AI对土地管理以及房地产开发的作用

    2022-07-27

    利用AI的超强数据分析能力构建数据体系,帮助土地资源和房地产开发发挥管理的最大价值。

    涉及学科
    涉及领域
    关键词 
  • 人工智能创新思维 | 反思可解释性方法,深入探索机器学习的原理

    2022-07-23

    从可解释性方法的角度探索机器学习模型的工作准确性,拓展人工智能研究使用的注意事项。

    涉及学科
    涉及领域
    关键词 
  • 人工智能创新思维 | 利用图神经网络进行图像识别的华为诺亚ViG架构

    2022-08-03

    华为诺亚实验室的研究员发现图神经网络(GNN)也能做视觉骨干网络,并提出了一种新型视觉网络架构 ViG,其表现优于传统的卷积网络和 Transformer。在 ImageNet 图像识别任务,ViG 在相似计算量情况下 Top-1 正确率达 82.1%,高于 ResNet 和 Swin Transformer。这项有关 Vision GNN 的开创性工作或许可以作为一般视觉任务的基本架构。

    涉及学科
    涉及领域
    关键词 
  • 人工智能创新思维 | 通过重新实现和集成分页在边缘设备上训练神经网络

    2022-07-26

    UC 伯克利的几位研究者提出了一种用于深度神经网络的图形级编译器——PORT,它重写了大型模型的训练 DAG以适应边缘设备的内存限制,同时保持高能效,通过重新实现和分页,达到了以最小的能耗扩展有效的内存容量的效果。

    涉及学科
    涉及领域
    关键词