主站 [切换站点]
热门站点
好店入驻
微信扫一扫打开
入驻好店
发布信息
微信扫一扫打开
发布信息
同城头条  >  及时新闻  >  ICLR 2023 | 让机器人理解“指向起源于触摸”的新SOTA架构Touch-line Transformer
ICLR 2023 | 让机器人理解“指向起源于触摸”的新SOTA架构Touch-line Transformer
2023年09月02日 18:11   浏览:15   来源:机器人产业生态网


论文连接:
https://arxiv.org/abs/2210.05668
代码链接:

https://github.com/Yang-Li-2000/Understanding-Embodied-Reference-with-Touch-Line-Transformer 

让机器人学习起源于触摸的指向型手势,使机器人更好地和人类交互。当机器人与人类交互时,许多机器人很难确定人在指什么,因为大多数现代学习算法在理解人的指向性手势时不能很好地同时考虑手势和语言。

但是,为了在交互时正确理解人的意图,同时考虑手势和语言至关重要。

以图 1 为例,图中的人在指着一个椅子的同时说 “那个被遮住的椅子”。

图 1:在复杂场景中,同时考虑非语言和语言表达对正确理解所指物体来说是必要的。

如果仅依靠他的手势,机器人很难判断他指的是椅子还是桌子上的东西,因为他指的方向存在许多东西。同样地,如果仅依靠他的语言 “那个被遮住的椅子”,机器人无法确定他指的是两个被遮住的椅子中的哪一个。

尽管先前的工作 (Chen et al., 2021) 尝试了让算法明确地考虑人的姿势和人的语言,机器人仍然只能在 14% 的情况下准确定位(IoU0.75)人指的物体。
影响上述模型表现的一个可能的因素是没有很好地建模人的指向性手势。现代计算机视觉中人体姿势表示由 COCO (Lin et al., 2014) 定义:一个由 17 个节点(关键点)和 14 个边(关键点连线)组成的图。COCO 的人体姿势表示包括肘部和腕部的连线,但不包括眼睛到指尖的连线。
以图 2 为例,使用 COCO 人体姿势表示可以得到红色的线(肘腕线),但是不能得到绿色的线(触摸线)。

图 2:所指物体(黄色框内微波炉)在触摸线(绿色)上,不在肘腕线(红色)上。
人类对指向性手势存在一个常见的误解 (Herbort & Kunde, 2018):许多人错误地认为被指的物体在红色的肘腕线上。以图 2 为例,许多人会错误地依靠红色的肘腕线来定位被指的物体,从而错误地认为被指的物体是冰箱。
使用红色的肘腕线来定位被指物体是错误的。
经过大量的观察,我们发现绿色的触摸线(眼睛到指尖的连线)能够更好地表示被指物体的方向。图 2 中的人实际指的物体是黄色框中的微波炉(因为他指的同时说了“微波炉”)。图中的绿色的触摸线穿过了微波炉的中心,很准确地表示了所指物体的方向。因此,使用触摸线可以帮助人们更准确地定位被指的物体。
发表于 Science Advances 的一项心理学研究 (O’Madagain et al., 2019) 很好地佐证了上述的触摸线能帮人们更准确定位被指物体这一观点。该心理学研究发现触摸线能更准确地反映被指物体的方向,并且提出了人们的 “指向性手势源于触摸”。
受到触摸线比肘腕线更准确这一基本观察的启发,我们希望让机器人学习这个起源于触摸的指向性手势,从而更好地与人类交互。
因此,我们连接了眼睛和指尖,从而扩充了现有的 COCO 人体姿势表示。
我们的实验结果表明让模型学习触摸线能够显著提高理解人类指向性手势时的准确性。
01  让模型学习触摸线
我们让模型学习找到触摸线并鼓励模型使用触摸线来定位被指的物体。具体来说,我们鼓励模型预测的所指物体和触摸线存在高共线性。

1.1 衡量共线性

在鼓励高共线性前,我们需要一种方法来衡量共线性。
我们使用使用余弦相似度来衡量物体和触摸线之间的共线性:
其中分别为指尖(或肘部)、眼睛(或腕部)、所指物体的框的中心的 xy 坐标。

1.2 鼓励共线性

为了鼓励我们的模型预测出和触摸线具有较高共线性的所指物体,我们使用一个 referent alignment loss:
其中是使用 ground trith 所指物体框计算的,是使用预测的所指物体框计算的。在中, 我们都使用 ground truth 触摸线。当预测的物体框与触摸线的共线程度与 ground truth 物体框与触摸线的共线程度一样高时,上述最小化为零。
02  模型架构
如图 3 所示,我们的框架包含一个多模态编码器、一个 transformer 解码器、和预测头。

图 3  整体网络架构

2.1 多模态编码器

通过使用一个预训练好的 ResNet (He et al., 2016) backbone 来提取输入图片中的视觉特征, 我们得到 visual embedding 向量。我们将得到的 visual embedding 向量展平并加到一组 position embeddings (Parmar et al., 2018; Bello et al., 2019) 中。同时,我们通过一个预训练好的 BERT (Liu et al., 2019) 从文字输入中生成一个 textural embedding 向量。最后,我们将 visual embedding 向量和 textural embedding 向量拼在一起并输入到 transformer 解码器中。

2.2 Transformer 解码器

我们将上面生成的多模态表征提供给我们的 transformer 解码器。此外,我们的 transformer 解码器将一组可学习的 object queries 和 gestural key point queries 作为输入。通过多模态表征和输入的 queries,我们的 transformer 解码器生成 object output embeddings 和 gestural output embeddings。我们使用预训练好的 MDETR (Kamath et al., 2021) 解码器。

2.3 预测头

来自 transformer 解码器的 object output embeddings 和 gestural output embeddings 是我们的预测头 (MLP) 的输入。我们的预测头使用它们来预测所指物体的框和 gestural key points(眼睛和指尖或肘部和腕部的位置)。我们保留一个所指物体的框和一对得分最高的 gestural key points 作为最终预测。

03  实验结果

3.1 与 state-of-the-art 方法的比较
在 0.25、0.50 和 0.75 的 IoU 阈值下,我们的方法分别优于现有的最先进方法 16.4%、23.0% 和 25.0% (表 1)。具体来说,我们的模型比没有明确利用非语言手势信号的 visual grounding 方法 (Yang et al., 2019; 2020) 表现更好。我们的方法也比 YouRefIt (Chen et al., 2021) 中提出的方法表现更好,后者没有利用触摸线或 transformer 模型来完成多模态任务。

表 1  与 state-of-the-art 方法的比较

3.2 明确学习触摸线或肘腕线的表现的比较

总的来说,在所有三个 IoU 阈值下,训练来预测触摸线的模型比训练来预测肘腕线的模型表现更好 (表 2)。在 0.75 的 IoU 阈值下,经过训练可以明确预测肘腕线的模型比没有经过训练可以明确预测任何手势信号的模型表现更差。

表 2  预测触摸线的模型和预测肘腕线模型的比较
(None:不明确预测触摸线或肘腕线;EWL:明确预测肘腕线;VTL:明确预测触摸线)
我们的定性结果也显示学习预测触摸线的模型在很多情况下比学习预测肘腕线的模型表现更好(图 4)。

图 4  定性结果:学习预测触摸线的模型在很多情况下表现更好
3.3 触摸线模型注意力权重的可视化
我们将使用触摸线训练的模型的注意力权重可视化(图 5)。我们使用黄色来可视化匹配的 gestural key point queries 的注意力权重,使用蓝色来可视化匹配的 object queries 的注意力权重。可视化结果表明,object queries 的注意力可以关注目标对象的区域,而 gestural key point queries 的注意力主要集中在人的头部和手上。这些结果表明我们的模型成功地学习了可以提高模型性能的姿势特征。

图 5  注意力权重可视化

04  总结

我们提出让计算模型学习触摸线从而更好地理解人类的指向性手势。

我们的模型将视觉和文本特征作为输入,同时预测指示对象的边界框和触摸线向量。利用触摸线先验,我们进一步设计了一种几何一致性损失函数,鼓励所指物体和触摸线之间的共线性。学习触摸线可以显着提高模型性能。

在 YouRefIt 数据集上进行的实验表明,我们的方法在 0.75 IoU 标准下实现了 +25.0% 的精度提升,缩小了计算模型与人类表现之间 63.6% 的差距。此外,我们通过计算模型验证了此前的人类实验的结果:我们证明了计算模型在学习触摸线时比学习肘腕线时能更好地定位所指物体。

免责声明:本平台只做内容的收集及分享,文章版权归原撰写发布机构作者@一点人工一点智能所有,文章内容均通过公开合法渠道获得,如涉及侵权,请联系我们删除;如对内容存疑,请与撰写、发布机构联系


推荐头条