2024年将是生成式人工智能(AI)/大型基础模型和机器人交叉领域的重要一年。人们对各种应用的潜力充满期待,从学习到产品设计。谷歌的DeepMind机器人研究团队是众多团队中的一员,正在探索这个领域的潜力。在今天的一篇博客文章中,该团队重点介绍了正在进行的研究,旨在使机器人更好地理解我们人类对它们的需求。
传统上,机器人通常专注于在它们的生命周期内反复执行单一任务。单一用途的机器人在某个方面通常非常擅长,但即使是它们在进行中无意中引入变化或错误时也会遇到困难。
新宣布的AutoRT旨在利用大型基础模型,以实现多种不同的目标。在DeepMind团队提供的标准示例中,系统首先利用Visual Language Model(VLM)来提高情境感知能力。AutoRT能够管理一组机器人并配备摄像头,以获取其环境及其中的物体布局。
与此同时,大型语言模型建议可以由硬件执行的任务,包括其末端执行器。许多人认为,大型语言模型是解锁能够有效理解更自然语言命令的机器人的关键,从而减少对硬编码技能的需求。
该系统在过去的七个月左右已经进行了大量测试。AutoRT能够同时协调多达20台机器人和总共52个不同设备。总体而言,DeepMind已经收集了约77,000个试验,其中包括超过6,000个任务。
该团队新推出的RT-Trajectory利用视频输入进行机器人学习。许多团队正在探索使用YouTube视频作为规模化培训机器人的方法,但RT-Trajectory添加了一个有趣的层次,在视频上叠加了动作中机械臂的二维草图。
团队指出,“这些轨迹以RGB图像的形式为模型提供了低级别、实用的视觉提示,帮助模型学习其机器人控制策略”。
DeepMind表示,该训练的成功率是其RT-2训练的两倍,为63%,而RT-2的成功率为29%,测试了41个任务。
“RT-Trajectory利用了所有机器人数据集中存在但目前被低估的丰富的机器人运动信息,”该团队指出。“RT-Trajectory不仅代表着朝着构建能够在新颖情境中以高效准确方式移动的机器人迈出的又一步,同时也从现有数据集中解锁了知识。”
机器人学习的未来
这一系列的研究和创新标志着机器人学习领域的一个新时代。传统上,机器人被设计为完成特定任务,它们在这方面表现得相当出色。然而,随着我们对机器人的需求变得越来越复杂,传统的单一用途机器人的局限性变得越来越明显。
AutoRT的引入意味着机器人不再局限于执行单一任务。通过利用大型基础模型,它们能够更好地理解周围环境和人类的指令,从而在更复杂的任务中表现出色。Visual Language Model的运用为机器人提供了更好的情境感知能力,使它们能够更灵活地适应不同的场景。
而大型语言模型的使用则进一步降低了对硬编码技能的依赖。传统上,为了使机器人能够理解人类语言指令,需要进行大量的硬编码工作。而现在,通过借助大型语言模型,机器人能够更自然地理解和执行更复杂的任务,无需事先编写详细的指令。
RT-Trajectory的创新是在机器人学习中引入了视频输入。这为机器人提供了更生动、实用的学习材料。通过在视频上叠加机械臂的运动轨迹,机器人能够更直观地理解如何执行特定任务。这种方法的成功率明显提高,为机器人学习的未来打开了新的可能性。