写在前面 & 笔者的个人理解
本文介绍了EMMA,一种用于自动驾驶的端到端多模态模型。EMMA建立在多模态大型语言模型的基础上,将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中,包括规划者轨迹、感知目标和道路图元素。EMMA通过将所有非传感器输入(如导航指令和自车状态)和输出(如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练的大型语言模型中的世界知识。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务,并使用任务特定的提示为每个任务生成输出。根据经验,我们通过在nuScenes上实现最先进的运动规划性能以及在Waymo开放运动数据集(WOMD)上取得有竞争力的结果来证明EMMA的有效性。EMMA还为Waymo开放数据集(WOD)上的相机主3D目标检测提供了有竞争力的结果。我们表明,将EMMA与规划器轨迹、目标检测和道路图任务联合训练,可以在所有三个领域取得进步,突显了EMMA作为自动驾驶应用的通用模型的潜力。然而,EMMA也表现出一定的局限性:它只能处理少量的图像帧,不包含激光雷达或雷达等精确的3D传感方式,计算成本很高。我们希望我们的研究结果能够激发进一步的研究,以缓解这些问题,并进一步发展自动驾驶模型架构的最新技术。
总结来说,本文的主要贡献如下:
尽管有这些SOTA的结果,但EMMA并非没有局限性。特别是,它面临着现实世界部署的挑战,原因是:(1)由于无法将相机输入与LiDAR或雷达融合,3D空间推理受到限制,(2)需要真实且计算昂贵的传感器仿真来为其闭环评估提供动力,以及(3)相较于传统模型,计算要求增加。我们计划在未来的工作中更好地理解和应对这些挑战。
EMMA建立在Gemini之上,Gemini是谷歌开发的MLLM家族。我们利用经过训练的自回归Gemini模型来处理交错的文本和视觉输入,以产生文本输出:
如图1所示,我们将自动驾驶任务映射到基于Gemini的EMMA公式中。所有传感器数据都表示为拼接图像或视频V;所有路由器命令、驱动上下文和任务特定提示都表示为T;所有输出任务都以语言输出O的形式呈现。一个挑战是,许多输入和输出需要捕获3D世界坐标,例如用于运动规划的航路点BEV(鸟瞰图)位置(x,y)以及3D框的位置和大小。我们考虑两种表示方式:第一种是直接将文本转换为浮点数,表示为。RT-2在机器人控制中举例说明了这种方法。第二种方法使用特殊的标记来表示每个位置或动作,表示为,分辨率由学习或手动定义的离散化方案确定。MotionLM利用这种方法进行运动预测。我们注意到,这两种方法各有优缺点。我们选择文本表示,这样所有任务都可以共享相同的统一语言表示空间,并且它们可以最大限度地重用预训练权重中的知识,即使文本表示可能比专门的标记化产生更多的标记。
EMMA采用统一的端到端训练模型,直接从传感器数据生成自动驾驶汽车的未来轨迹。然后,这些生成的轨迹被转化为特定于车辆的控制动作,如自动驾驶车辆的加速和转弯。EMMA的端到端方法旨在仿真人类驾驶行为,重点关注两个关键方面:(1)第一,使用导航系统(如谷歌地图)进行路线规划和意图确定;(2)第二,利用过去的行动来确保平稳、一致的驾驶。
们的模型结合了三个关键输入,以与这些人类驾驶行为保持一致:
该模型为运动规划生成未来轨迹,表示为同一BEV空间中自车的一组未来轨迹航路点:表示未来Tf时间戳,其中所有输出航路点也表示为纯文本。将所有内容放在一起,完整的公式表示为:
然后,我们使用此公式对Gemini进行微调,以生成端到端的规划器轨迹,如图1所示。我们强调了这种配方的三个特点:
思维链提示是MLLM中的一个强大工具,可以增强推理能力并提高可解释性。在EMMA中,我们通过要求模型在预测最终未来轨迹航路点Otrajectory的同时阐明其决策原理Orationale,将思维链推理纳入端到端规划器轨迹生成中。
我们按层次结构构建驱动原理,从4种粗粒度信息到细粒度信息:
我们强调,驱动原理说明是使用自动化工具生成的,没有任何额外的人工标签,确保了数据生成管道的可扩展性。具体来说,我们利用现成的感知和预测专家模型来识别关键代理,然后使用精心设计的视觉和文本提示的Gemini模型来生成全面的场景和代理行为描述。元驾驶决策是使用分析自车地面真实轨迹的启发式算法计算的。
在训练和推理过程中,该模型在预测未来的航路点之前预测了驾驶原理的所有四个组成部分,即:
虽然端到端的运动规划是最终的核心任务,但全面的自动驾驶系统需要额外的功能。具体来说,它必须感知3D世界,识别周围的物体、道路图和交通状况。为了实现这一目标,我们将EMMA制定为一种多面手模型,能够通过混合训练来处理多种驾驶任务。
我们的视觉语言框架将所有非传感器输入和输出表示为纯文本,提供了整合许多其他驾驶任务所需的灵活性。我们采用指令调优(LLM中一种成熟的方法)来联合训练所有任务以及方程1的输入T中包含的任务特定提示。我们将这些任务分为三大类:空间推理、道路图估计和场景理解。图2显示了整个EMMA概化图。
空间推理是理解、推理和得出关于物体及其在空间中的关系的结论的能力。这使得自动驾驶系统能够解释周围环境并与之交互,以实现安全导航。
我们空间推理的主要重点是3D目标检测。我们遵循Pix2Seq,将输出的3D边界框表示为Oboxes。我们通过写两位小数的浮点数将7D框转换为文本,每个维度之间用空格隔开。然后,我们使用固定提示Tdetect_3D表示检测任务,例如“检测3D中的每个目标”,如下所示:
道路图估计侧重于识别安全驾驶的关键道路元素,包括语义元素(如车道标记、标志)和物理属性(如车道曲率)。这些道路元素的集合形成了一个道路图。例如,车道段由(a)节点表示,其中车道遇到交叉口、合并或分割,以及(b)这些节点之间沿交通方向的边缘。完整的道路图由许多这样的折线段组成。
虽然每条折线内的边是有方向的,但每条折线相对于其他元素不一定有唯一的顺序。这与目标检测相似,其中每个框由有序属性(左上角、右下角)定义,但框之间不一定存在相对顺序。已有数篇研究使用Transformers对折线图进行建模,与语言模型有相似之处。
我们在EMMA中的一般建模公式如下:
本文特别关注预测可行驶车道,即自车在场景中可以行驶的车道。这些是同一交通方向上的相邻车道和从当前自我车道分叉的车道。为了构建Oroadgraph,我们(a)将车道转换为有序的航路点集,(b)将这些航路点集转换为文本。使用样本排序的航路点来表示交通方向和曲率是有益的。与检测一样,我们还发现按近似距离对车道进行排序可以提高预测质量。我们的折线文本编码的一个例子是:“(x1,y1和…以及xn,yn);…”其中“x,y”是精度为小数点后2位的浮点航点,“;”分隔折线实例。
场景理解任务测试模型对整个场景上下文的理解,这可能与驾驶有关。例如,道路可能会因施工、紧急情况或其他事件而暂时受阻。及时检测这些障碍物并安全绕过它们对于确保自动驾驶汽车的平稳安全运行至关重要;然而,需要场景中的多个线索来确定是否存在堵塞。我们使用以下公式重点研究我们的模型在这个临时堵塞检测任务中的表现:
我们统一的视觉语言公式能够使用单个模型同时训练多个任务,允许在推理时通过任务提示Ttask的简单变化进行特定任务的预测。训练方式既简单又灵活。
实验结果表明,在多个任务中训练的通才模型明显优于在单个任务上训练的每个专家模型。这突出了通才方法的优势:增强了知识转移,提高了泛化能力,提高了效率。
我们在图8、9和10中展示了12个不同的视觉示例,每个示例都是为了突出EMMA模型在一系列场景中的通用性。在所有场景中,我们显示模型的预测(从左到右):端到端运动规划、3D目标检测和道路图估计。
我们按场景类型对视觉示例进行分组:示例(a)-(d)展示了EMMA如何安全地与路上罕见、看不见的物体或动物互动。示例(e)-(f)的特点是EMMA在施工区域导航。示例(g)-(j)展示了EMMA在有交通信号灯或交通管制员的十字路口遵守交通规则的情况。示例(k)-(l)强调了EMMA尊重摩托车手等弱势道路使用者。
鉴于这些示例,我们展示了EMMA的以下功能:
总之,这些场景突出了EMMA在各种具有挑战性和多样性的驾驶场景和环境中安全高效运行的能力。
在前面的部分中,我们在nuScenes规划基准上展示了最先进的端到端运动规划。我们还在WOD规划基准上实现了端到端的运动规划和WOD上的相机主3D检测的竞争性能。此外,我们的通才设置通过联合训练提高了多项任务的质量。尽管取得了这些有希望的结果,但我们承认我们工作的局限性,并提出了在此基础上进一步发展和在未来研究中应对这些挑战的方向。
内存和视频功能:目前,我们的模型只处理有限数量的帧(最多4帧),这限制了它捕获驾驶任务所必需的长期依赖关系的能力。有效的驾驶不仅需要实时决策,还需要在更长的时间范围内进行推理,依靠长期记忆来预测和应对不断变化的场景。增强模型执行长期推理的能力是未来研究的一个有前景的领域。这可以通过集成存储模块或扩展其高效处理较长视频序列的能力来实现,从而实现更全面的时间理解。
扩展到激光雷达和雷达输入:我们的方法严重依赖于预训练的MLLM,这些MLLM通常不包含激光雷达或雷达输入。扩展我们的模型以集成这些3D传感模式带来了两个关键挑战:1)可用相机和3D传感数据量之间存在显著不平衡,导致与基于相机的编码器相比,3D传感编码器的通用性较差。2) 3D传感编码器的发展尚未达到基于相机的编码器的规模和复杂程度。解决这些挑战的一个潜在解决方案是使用与相机输入仔细对齐的数据对大规模3D传感编码器进行预训练。这种方法可以促进更好的跨模态协同作用,并大大提高3D传感编码器的泛化能力。
预测驾驶信号的验证:我们的模型可以直接预测驾驶信号,而不依赖于中间输出,如物体检测或道路图估计。这种方法给实时和事后验证带来了挑战。我们已经证明,我们的多面手模型可以联合预测额外的人类可读输出,如目标和道路图元素,并且可以用思维链驱动原理进一步解释驾驶决策。然而,尽管经验观察表明这些输出通常确实是一致的,但不能保证它们总是一致的。此外,额外的输出会给部署带来巨大的运行时延迟开销。
闭环评估的传感器仿真:人们普遍认为,开环评估可能与闭环性能没有很强的相关性。为了在闭环环境中准确评估端到端的自动驾驶系统,需要一个全面的传感器仿真解决方案。然而,传感器仿真的计算成本通常比行为仿真器高几倍。除非进行大量优化,否则这种巨大的成本负担可能会阻碍端到端模型的彻底测试和验证。
车载部署的挑战:自动驾驶需要实时决策,由于推理延迟增加,在部署大型模型时面临重大挑战。这就需要优化模型或将其提炼成适合部署的更紧凑的形式,同时保持性能和安全标准。实现模型尺寸、效率和质量之间的微妙平衡对于自动驾驶系统在现实世界中的成功部署至关重要,也是未来研究的关键领域。
在本文中,我们提出了EMMA,一种基于Gemini的自动驾驶端到端多模式模型。它将双子座视为一等公民,并将自动驾驶任务重新定义为视觉问答问题,以适应MLLM的范式,旨在最大限度地利用双子座的世界知识及其配备思维链工具的推理能力。与具有专门组件的历史级联系统不同,EMMA直接将原始摄像头传感器数据映射到各种特定于驾驶的输出中,包括规划轨迹、感知目标和道路图元素。所有任务输出都表示为纯文本,因此可以通过任务特定的提示在统一的语言空间中联合处理。实证结果表明,EMMA在多个公共和内部基准和任务上取得了最先进或具有竞争力的结果,包括端到端的规划轨迹预测、相机主要3D目标检测、道路图估计和场景理解。我们还证明,单个联合训练的EMMA可以联合生成多个任务的输出,同时匹配甚至超越单独训练的模型的性能,突出了其作为许多自动驾驶应用的多面手模型的潜力。
虽然EMMA显示出有希望的结果,但它仍处于早期阶段,在机载部署、空间推理能力、可解释性和闭环仿真方面存在挑战和局限性。尽管如此,我们相信我们的EMMA发现将激发该领域的进一步研究和进展。