“尽管在使机器人有效抓握物体,视觉上自我适应甚至从实际经验中学习方面取得了相当大的进步,但机器人操作仍需要仔细考虑如何拾取、处理和放置各种物体,尤其是在非结构化设置中。”谷歌学生研究员AndyZeng在博客中写道,“所以,机器人能不能学会有利地使用它们,而不是仅仅是基于动力学,从而开发出一种物理‘直觉’,能让它们更有效地完成任务?”
为了回答这个问题,Zeng和他的同事们与普林斯顿、哥伦比亚和麻省理工学院的研究人员合作,开发了一种他们称为TossBot的拾取器机器人,该机器人学会抓取物体,并将物体扔到其“自然范围”之外的盒子里。TossBot不仅比以前最先进的型号快两倍,而且实现了两倍的有效放置范围,可以通过自我监督来提高。
可预测性的投掷并不容易——即使对人类来说也是如此。抓握、姿势、质量、空气阻力、摩擦力、空气动力学以及无数其他变量会影响物体的轨迹。通过反复试验建立弹丸物理模型在一定程度上是可能的,但Zeng指出,计算成本太高了,需要大量的时间,并且不会产生特别普遍的策略。
相反,TossingBot使用弹丸弹道模型来估计将物体送到目标位置所需的速度,并使用端对端神经网络-以生物神经元为模型的数学函数层-对来自头顶的视觉和深度数据进行训练,从而在预测该估计值基础上调整摄像头。Zeng表示,这种混合方法使系统的投掷准确率达到85%。
教TossingBot抓住物体有点棘手。首先,它会反复尝试“糟糕”的抓取动作,直到找到更好的方法,同时,它还会偶尔以从未尝试过的速度随机投掷物体,从而提高自己的投掷能力。在经过大约14个小时的10,000次抓握和投掷尝试后,TossingBot可以在87%的时间内牢牢抓住杂乱堆中的物体。
也许更令人印象深刻的是,经过一两个小时的训练,TossingBot可以适应前所未见的位置和假水果、装饰物品和办公物品,以及类似的、几何形状简单的小东西。“TossingBot可能会更多地依赖几何线索(例如形状)来学习抓握和投掷。”Zeng说,“这些新出现的特征都是从无到有,在任务级的抓握和投掷之外,没有任何明确的监督。然而,它们似乎足以使系统能够区分对象类别(如乒乓球和记号笔)。”
研究人员承认,TossingBot还没抓取过脆弱物体进行测试,并且使用严格的可视化数据作为输入,这可能会妨碍其在测试中对新对象做出反应的能力。但是他们表示,物理学和深度学习相结合的基本理念,是未来工作一个有前景的方向。