文章链接:项目链接:
亮点直击
总结速览
解决的问题
现有的视频定制生成方法需要在测试时进行复杂的微调,且难以平衡主体学习与运动控制,限制了其在实际应用中的效果。
提出的方案
提出了DreamVideo-2,一种无需测试时微调的零样本视频定制框架,通过单张图像和一组边界框序列指导视频生成,确保生成视频的特定主体和运动轨迹。
应用的技术
达到的效果
在一个新构建的数据集上的大量实验表明,DreamVideo-2在主体定制和运动控制方面均优于现有的先进方法。
方法
给定一个定义主体外观的单个主体图像和一个描述运动轨迹的边界框序列, DreamVideo-2 旨在生成包含指定主体和运动轨迹的视频,无需在推理时进行微调或修改,如下图2所示。为了学习主体外观,利用模型的固有能力,并引入了参考注意力。对于运动控制,提出使用mask作为运动控制信号,并设计了 mask 引导运动模块。此外,为了平衡主体学习和运动控制,通过混合 mask (即mask参考注意力)增强参考注意力,并设计了重加权扩散损失。最后,详细介绍了训练、推理和数据集构建过程。
通过参考注意力进行主体学习
通过mask引导的运动模块实现运动控制
为了从mask 序列中捕获运动信息,设计了一个mask 引导的运动模块,该模块使用一个时空编码器和一个空间 ControlNet,如前面图 2 所示。虽然先前的研究证明了 3D ControlNet 从序列输入中提取控制信息的有效性,但其高昂的训练成本在实际应用中存在潜在缺陷。鉴于mask 序列中简单的时序关系,使用一个轻量级的时空编码器足以提取所需的时序信息。因此,仅在该编码器上附加一个空间 ControlNet 以进一步提高控制精度。时空编码器由重复的二维卷积和非线性层组成,后接两个时序注意力层和一个输出卷积层,如前面图 2 右侧所示。此外,空间 ControlNet 提取多尺度特征,并将其添加到 VDM 解码器块的卷积层输入中。
平衡主体学习与运动控制
虽然上述两个组件已实现其预期功能,根据经验观察到,运动控制往往占主导地位,这可能削弱主体ID保持的质量。如下图 3(b) 所示,模型仅需少量步骤即可学会运动控制,部分说明了在指定位置生成主体相比于学习外观细节更简单。在图 3(c) 中,即使在延长训练步骤的情况下,参考注意力和运动模块的联合训练也仍然使运动控制占主导地位,从而导致主体ID被破坏。相比之下,如图 3(d) 所示,本文的方法通过以下两个关键设计有效平衡了主体学习和运动控制。
重加权扩散损失 为了平衡主体学习和运动控制,进一步提出了一种重加权扩散损失,以区分边界框内外区域对标准扩散损失的贡献。具体而言,放大边界框内区域的贡献,以增强主体学习,同时保留边界框外区域的原始扩散损失。设计的重加权扩散损失可以定义为
训练、推理和数据集构建
训练 从训练视频中随机选择一帧并进行分割,以获得带有空白背景的主体图像,这相比于使用首帧能缓解过拟合。同时,从训练视频的所有帧中提取主体的边界框,并将其转换为mask 作为运动控制信号。在训练过程中,冻结原始的 3D UNet 参数,并根据公式 (6) 联合训练新添加的mask 参考注意力、时空编码器和 ControlNet。
推理 DreamVideo-2 在推理时无需微调,且不需要修改注意力图。用户只需提供主体图像和边界框序列,即可灵活生成包含指定主体和运动轨迹的定制视频。边界框可以从多种信号中获得,包括首帧和末帧的边界框、首帧边界框及运动轨迹,或参考视频。这些信号随后被转换为二值mask作为输入。
数据集构建 为了便于主体和运动控制的零样本视频定制任务,从 WebVid-10M数据集和内部数据中策展了一个包含视频mask 和边界框的单主体视频数据集。注释是使用 Grounding DINO、SAM和 DEVA模型生成的。本文的数据集与之前的数据集的比较见下表 1。目前已处理 230,160 个视频用于训练。
实验
实验设置
数据集 在策展的视频数据集上训练 DreamVideo-2,并通过包含 50 个主体和 36 个边界框的测试集进行评估。主体图像来源于之前的文献和互联网,而边界框来自 DAVIS 数据集中的视频和 FreeTraj 中使用的框。此外,设计了 60 个文本提示用于验证。
基线方法 将本文的方法与 DreamVideo和 MotionBooth进行主体定制和运动控制的对比。此外,还与 DreamVideo 和 VideoBooth进行独立的主体定制对比,并与 Peekaboo、Direct-a-Video和 MotionCtrl进行运动轨迹控制的对比。
评估指标 通过 9 个指标评估方法,重点关注三个方面:总体一致性、主体保真度和运动控制精度。
主要结果
主体定制和运动控制的联合 对比了本文的方法与基线方法生成带有指定主体和运动轨迹视频的质量,结果如下图 4 所示。观察到,DreamVideo 和 MotionBooth 难以在主体保留和运动控制之间取得平衡,尤其是在训练单一主体图像时。主体与运动的控制强度不平衡影响了它们的表现,导致在增强某一方面时损害了另一方面的效果。相较之下,DreamVideo-2 能够在各种上下文中和谐地生成带有期望主体外观和运动轨迹的定制视频。此外,本文的方法有效地将主体限制在边界框内,更好地符合用户的偏好,增强了其在实际应用中的适用性。
定量比较结果 如下表 2 所示。DreamVideo-2 在文本对齐、主体保真度和运动控制精度方面始终优于所有基线方法,同时在时序一致性上也达到了可比的表现。值得注意的是,本文的方法在 mIoU 和 CD 指标上显著超越了基线方法,验证了在运动控制方面的稳健性。相比之下,DreamVideo 在 CLIP-I 和 DINO-I 指标上表现第二优,但在 mIoU 和 CD 上较弱,表明其在主体ID保留方面具有优势,但在运动控制方面存在局限性。MotionBooth 由于对整个模型进行了微调,CLIP-T 得分最低,但在 mIoU 和 CD 指标上比 DreamVideo 更好,表明使用显式运动控制信号(例如边界框)可能比从参考视频学习更为有效。
主体定制 还评估了独立的主体定制能力。下图 5 展示了定性比较结果。观察到,VideoBooth 对于其训练数据中未包含的主体表现出有限的泛化能力,而 DreamVideo 在单张图像训练时未能捕捉到外观细节。相反,当在与 VideoBooth 相同的数据集上训练时,DreamVideo-2 结合参考注意力和重加权扩散损失,可以生成符合文本提示的目标主体视频。
表 3 的定量比较结果 显示,尽管 DreamVideo-2 在 CLIP-I 和时序一致性上保持相当的表现,但它在 CLIP-T、DINO-I 和动态程度上取得了最高分,验证了本文的方法在文本对齐、主体保真度和运动动态方面的优越性。
运动控制 除了主体定制之外,还评估了运动控制能力,如图 6 所示。结果表明,所有基线方法在准确控制主体按边界框定义的运动方面都存在困难。同时,Direct-a-Video 可能会因修改注意力图值而导致生成的物体外观损坏。相比之下,仅使用运动编码器的 DreamVideo-2 能够实现精确的运动控制,并有效地确保主体保持在边界框内,展示了稳健的控制能力。
如下表 4 所示,尽管与 MotionCtrl 相比在时序一致性(T. Cons.)上略低,本文的方法在 CLIP-T 上取得最高得分,并且在 mIoU 和 CD 指标上大幅超越基线方法。
用户研究 为进一步评估 DreamVideo-2,进行了用户研究,邀请 15 名标注员对三种方法生成的 300 组视频进行评分。每组包含 3 个生成的视频、一个主体图像、文本提示和对应的边界框。根据文本对齐度、主体保真度、运动对齐度和总体质量四个方面进行评估,并通过多数投票得出结果。下图 7 显示,用户在四个方面均更偏好本文的方法。
消融实验
各组件的效果 本文进行了消融实验以探究各组件的效果,如下图 8(a) 所示。观察到,去除mask 机制或重加权扩散损失后,主体ID的质量因运动控制的主导性而下降。虽然在mask 参考注意力中使用二值mask 有助于保留主体ID,但由于忽略了注意力中的背景信息,往往导致背景模糊、视频质量低下。值得注意的是,在没有运动编码器的情况下,mask 参考注意力仍然能够实现粗略的轨迹控制。
下表 5 的定量结果表明,去除mask 机制、运动编码器或重加权扩散损失后,所有指标的性能均会下降。这证实了各组件对整体性能的贡献;
结论
本文提出了 DreamVideo-2,这是一种创新的零样本视频定制框架,能够生成具有特定主体和运动轨迹的视频。引入了参考注意力用于主体学习,并设计了mask 引导的运动模块以实现运动控制。针对 DreamVideo-2 中运动控制主导性的问题,在参考注意力中引入了混合mask 并设计了重加权扩散损失,从而有效地平衡了主体学习和运动控制。大量实验结果表明,DreamVideo-2 在主体定制和运动轨迹控制方面均具有优势。
局限性 尽管本文的方法能够定制单个主体与单一轨迹,但在生成包含多个主体和多重轨迹的视频时仍存在不足。一种解决方案是构建更为多样化的数据集并训练通用模型。
原文链接: