文章链接:项目链接:
亮点直击
总结速览
解决的问题
机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作。由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑战。
提出的方案
提出Gen2Act方法,通过从网络数据中预测运动信息,生成人类视频,并将机器人策略与生成的视频结合。通过零样本的人类视频生成引导机器人策略执行新任务,避免大量的机器人数据采集。
应用的技术
达到的效果
Gen2Act能够让机器人操作未见过的物体,并完成机器人数据中未包含的新动作任务,在真实场景中展现出多样化的泛化能力。
方法
本文开发了一种基于语言条件的机器人操作系统Gen2Act,能够在未知场景中泛化到新任务。为实现这一目标,采用了分解方法:
概述与设置
人类视频生成
使用现有的文本+图像条件下的视频生成模型进行任务的视频生成。我们发现当前的视频生成模型能够在零样本情况下很好地生成人类视频,而无需任何微调或适配(如下图3中的示例)。相比于一些之前的工作[57, 58]尝试生成机器人视频,专注于人类视频生成,因为当前的视频生成模型无法在零样本情况下生成机器人视频,并且需要特定的机器人微调数据才能实现。这种微调往往会削弱那些基于网络大规模数据训练的生成模型在新场景中的泛化优势。
从生成的人类视频到机器人动作翻译
在Gen2Act中,将轨迹预测作为训练期间的辅助损失,并与BC损失相结合,而在测试时不使用轨迹预测Transformer。这有助于减少测试时的计算量,提高部署效率。
部署
为了部署 Gen2Act 来解决操作任务,首先根据任务的语言描述和场景的图像生成一个人类视频。接着,使用生成的视频作为条件展开闭环策略。
对于执行包含多个任务的长时活动链,我们首先使用现成的大型语言模型(如 Gemini)来获取不同任务的语言描述。我们通过使用前一个策略执行后的最后一帧图像作为生成后续任务人类视频的第一帧,来为任务序列链接 Gen2Act。我们选择按顺序生成视频,而不是从最初的图像生成所有视频,因为在机器人执行了中间任务后,场景中的物体最终状态可能会不同。
实验
在厨房、办公室和实验室等多样化场景中进行实验,涵盖了大量操作任务。这些实验旨在回答以下问题:
评估设置的详细信息
按照以往的语言/目标条件策略学习工作,用执行的机器人轨迹是否解决了指令中规定的任务来量化成功,并定义基于同一任务描述的多次展开的成功率。我们根据不同泛化水平进行分类,采用之前工作中的术语:
这里,已见和未见是相对于机器人交互数据定义的,并假设视频生成模型已经看过包括机器人数据未见内容在内的丰富网络数据。
数据集和硬件细节
对于视频生成,使用现有的 VideoPoet 模型,并调整其条件以适应方形图像和任务的语言描述。在我们的实验中,没有对该模型进行任何微调,发现它可以直接泛化到所有机器人实验场景中的人类视频生成任务。
对于机器人实验,使用了一台带有柔顺双指夹具的移动操作机器人,机器人通过末端执行器控制进行策略部署。机械臂安装在机器人右侧的机身上。手动在办公室、厨房和实验室场景中移动机器人,并让它操作这些场景中的不同物体。机器人操作频率为 3Hz,每次任务开始前,将机器人的手臂重置到一个预定义的位置,以确保机器人的摄像头不会遮挡场景。
为了训练视频条件策略,使用了由先前工作收集的现有离线机器人示范数据集,并通过另一先前工作收集的一些人类视频示范配对进行增强。此外,我们通过使用视频生成模型,基于各自机器人示范的首帧,生成对应的人类视频,创建了一对一的形式(生成的人类视频,机器人示范)的配对。对于生成的人类视频和机器人示范中的点轨迹,使用了现成的跟踪方法。人类视频生成和点轨迹生成都完全在离线一次性完成,并不会增加策略训练时的成本。
基线与对比
与基线方法和 Gen2Act 的不同变体进行了对比。特别是,与一个基于语言条件的策略基线(RT1)进行了对比,该策略在与 Gen2Act 相同的机器人数据上训练。此外,我们还与基于视频条件的策略基线(Vid2Robot)进行了对比,该策略使用配对的真人和机器人视频进行训练。另一个基线是基于目标图像条件的策略(RT1-GC),该策略仅依赖 Gen2Act 的真实和生成视频的最后一帧(即目标图像)进行条件训练。最后,考虑了不带轨迹预测损失的 Gen2Act 变体。
人类视频生成分析
前面图 3 显示了在多样化场景中生成的人类视频的定性结果。我们可以看到,生成的视频合理地操作了文本指令中描述的场景。场景中的相应物体得到了操作,同时保持了背景的完整性,并且没有引入摄像头移动或生成中的伪影。这些结果令人兴奋,因为这些生成在新场景中是零样本的,并且可以直接用于机器人任务中,以想象如何操作未见的物体和场景。
Gen2Act 在场景、物体和动作中的泛化能力
本节比较了 Gen2Act 与基线方法和不同消融变体在不同泛化水平下的表现。下表 I 显示了任务在不同泛化水平上的成功率均值。我们观察到,在更高的泛化水平下,Gen2Act 的成功率明显更高,表明结合了运动信息的提取(通过轨迹预测)的人类视频生成在未见任务中非常有帮助。
Gen2Act 的长时操作任务链接
接下来,分析了 Gen2Act 在通过任务链接解决一系列操作任务中的可行性。下表 II 显示了如“制作咖啡”这类长时活动的结果,这些活动由多个按顺序执行的任务组成。我们通过 Gemini获得这些任务的序列,并对每个任务,使用前一个任务执行后场景的最后一帧作为视频生成的条件,并在生成的人类视频的条件下执行当前任务的策略。依次重复此过程,并报告每个阶段的成功率(5 次试验中的成功次数)。下图 5 直观地展示了来自四个长时活动的单次执行展开。
使用额外的遥操作示范进行共同训练
之前实验中使用的离线数据集在场景和任务类型上覆盖有限,导致在更高的泛化水平(前面表 I 中的 OTG 和 MTG)上 Gen2Act 的成功率不到 60%。在本节中,我们通过实验研究了增加少量额外的多样化遥操作轨迹,结合现有的离线数据集共同训练,是否可以帮助提升泛化能力。视频生成模型保持不变。下表 III 的结果显示,通过共同训练,Gen2Act 的表现有所提升。这令人振奋,因为这表明仅通过少量多样化的示范,Gen2Act 的翻译模型就可以更好地根据生成的视频在机器人数据有限的更高泛化水平下提升表现。
失败分析
本节讨论了 Gen2Act 的失败类型。发现,对于 MG 和一定程度上的 G,视频生成中的不准确与策略失败的相关性较小。而在更高泛化水平(物体类型 OTG 和动作类型 MTG)下,如果视频生成的结果不合理,策略往往无法成功执行任务。这也证明了 Gen2Act 的策略在执行任务时利用了生成的人类视频来推断运动线索,因此当视频生成在机器人数据支持有限的场景中出现错误时(例如在 OTG 和 MTG 中),策略将失败。
讨论与结论
总结。 本研究提出了一个结合零样本人类视频生成与有限机器人演示的框架,用于学习具有泛化能力的机器人操作任务。总体而言,工作表明,基于非机器人数据集(如网络视频)训练的运动预测模型可以帮助操作策略在未见场景中实现泛化,而不需要为每个任务收集机器人数据。
局限性。 本工作主要依赖于零样本人类视频生成,并通过视频中的点轨迹预测为机器人操作系统提供运动线索,帮助其与未见物体交互并执行新任务。因此,系统的能力受限于当前视频生成模型的限制,如无法生成逼真的手部动作,因而在执行非常精细的任务时能力有限。
未来工作。 探索从生成的视频中恢复更多密集的运动信息(例如对象网格)以解决当前的限制,可能是未来研究的一个有趣方向。另一个重要的方向是,通过学习恢复策略来处理中间失败,进一步增强任务链的可靠性,以支持长时操作任务。
原文链接: