文章链接:链接:
总结速览
解决的问题
Hi3D框架旨在解决从高分辨率图像生成3D模型时面临的挑战,特别是如何在多个视角之间保持几何一致性和高质量的纹理细节。传统方法往往在生成多视角图像时缺乏时间一致性,导致生成的3D内容在视觉上不连贯。
提出的方案
Hi3D提出了一种基于视频扩散的新范式,通过将单个图像重新定义为多视角图像,形成一个序列图像生成的过程(即轨道视频生成)。该方案利用3D感知先验(如相机姿态条件)来增强预训练的视频扩散模型,从而生成低分辨率的多视角图像。接着,使用学习到的3D感知视频到视频的细化器进一步提升这些图像的分辨率和细节。
应用的技术
视频扩散模型:用于生成多视角图像,特别关注时间一致性。3D感知先验:通过相机姿态条件增强模型的生成能力。3D高斯点云:用于进一步增强生成的多视角图像,以便进行高保真网格重建。
达到的效果
实验结果表明,Hi3D能够生成具有高度详细纹理的优越多视角一致图像。大量关于新视图合成和单视图重建的实验验证了该方法在生成高保真3D模型方面的有效性,显著提升了生成内容的几何一致性和视觉质量。
方法
本文设计了一种新的高分辨率图像到3D生成架构, 称为Hi3D,创新性地将视频扩散模型整合到3D感知的360°序列图像生成中(即轨道视频生成)。 本文的出发点是利用视频扩散模型中固有的时间一致性知识,以增强3D生成中的视角一致性。首先在本节中详细阐述图像到3D生成的问题表述,再详细介绍Hi3D框架中两阶段视频扩散范式的细节。
第一阶段,本文重新构建了预训练的图像到视频扩散模型,增加了相机姿态的条件,然后在3D数据上进行微调,以实现轨道视频生成。在第二阶段,本文通过3D感知的视频到视频细化器进一步提升多视角图像的分辨率。最后,本文引入了一种新颖的3D重建 pipeline,从这些高分辨率的多视角图像中提取高质量的3D网格。Hi3D的整体架构如下图2所示。
问题表述
第一阶段:基本多视图生成
之前的图像到3D生成方法通常依赖于预训练的图像扩散模型来实现多视图生成。这些方法通常通过注入多视图交叉注意力层,将图像扩散模型中的2D UNet扩展为3D UNet。这些新增的注意力层在3D数据集上从头开始训练,以学习多视图一致性。然而,为了确保训练的稳定性,这些方法中的图像分辨率被限制在256×256。正如Zero123所指出的,保持预训练图像扩散模型中的原始分辨率(512×512)会导致收敛速度变慢和方差增加。因此,由于这种低分辨率限制,这些方法无法完全捕捉输入2D图像中的丰富3D几何和纹理细节。
此外,研究者们观察到这些方法仍然存在多视图不一致的问题,特别是对于复杂物体的几何形状。这可能是因为底层预训练的2D扩散模型仅在单个2D图像上训练,缺乏对多视图相关性的3D建模。为了解决上述问题,将单张图像到多视图图像重新定义为3D感知序列图像生成(即轨道视频生成),并利用预训练的视频扩散模型实现这一目标。特别是,重新利用Stable Video Diffusion (SVD) 从输入图像生成多视图图像。SVD的吸引力在于它在大量不同的视频上进行了训练,使网络在训练期间能够遇到物体的多个视图。这可能缓解了3D数据稀缺问题。此外,SVD已经通过时间注意力层明确建模了多帧关系。我们可以继承这些时间层中固有的多帧一致性知识,以追求3D生成中的多视图一致性。
w(t)是一个对应的权重因子。本文并没有直接在高分辨率(即 1024 × 1024)下训练去噪神经网络,而是以粗到细的方式将这个复杂的问题分解为更稳定的子问题。在第一阶段,使用公式 (4) 在 512 × 512 分辨率下训练去噪神经网络,以生成低分辨率的多视角图像。第二阶段则进一步将 512 × 512 的多视角图像转换为高分辨率(1024 × 1024)的多视角图像。
第 2 阶段:3D 感知多视图细化
阶段一输出的 512 × 512 多视角图像展现了良好的多视角一致性,但仍未能完全捕捉输入的几何和纹理细节。为了解决这个问题,增加了一个额外的阶段,通过新的 3D 感知视频到视频的精细化器,进一步放大第一阶段的低分辨率输出,从而生成更高分辨率(即 1024 × 1024)的多视角图像,具有更精细的 3D 细节和一致性。
3D 网格提取
实验
实验设置
数据集与评估。 通过在两个主要任务上进行实验来实证验证本文的Hi3D模型的优越性,即新视图合成和单视图重建。在Google扫描物体(GSO)数据集上进行定量评估。在新视图合成任务中,采用三种常用指标:PSNR、SSIM 和LPIPS。在单视图重建任务中,使用Chamfer距离和体积IoU来衡量重建3D模型的质量。此外,为了评估本文Hi3D的泛化能力,对来自互联网的各种风格的单幅图像进行了定性评估。
实现细节。 在基本多视图生成的第一阶段,将视频数据集缩放为512 × 512的视频。在多视图精细化的第二阶段,不仅使用第一阶段的输出,还采用合成数据生成策略(类似于传统的图像/视频恢复方法进行数据增强。该策略旨在加速训练过程并增强模型的鲁棒性。整体实验在八个80G A100 GPU上进行。具体来说,第一阶段经历了80,000个训练步骤(大约3天),学习率为1 × 10⁻⁵,总批量大小为16。第二阶段包含20,000个训练步骤(约3天),学习率为5 × 10⁻⁵,批量大小减少为8。
对比方法。 本文将Hi3D与以下最先进的方法进行比较:RealFusion和Magic123利用2D扩散模型(Stable Diffusion)和SDS损失从单视图图像重建。Zero123学习从不同视角生成同一物体的新视图图像,并可以与SDS损失结合进行3D重建。Zero123-XL和Stable-Zero123通过提高训练数据质量进一步升级Zero123。One-2-3-45通过多视图图像(即Zero123的输出)直接学习显式3D表示,利用3D有符号距离函数(SDFs)。Point-E和Shap-E在一个广泛的内部OpenAI 3D数据集上进行预训练,从而能够直接将单视图图像转换为3D点云或以MLP编码的形状。SyncDreamer引入了3D全局特征体积以保持多视图一致性。Wonder3D和EpiDiff利用3D注意力机制,通过交叉注意力层使多视图图像之间能够相互作用。值得注意的是,在新视图合成任务中,本文仅包含部分基线(即Zero123系列、SyncDreamer、EpiDiff),以便与本文的Hi3D进行公平比较。
新颖的视图合成
下表1总结了新视图合成任务的性能比较,下图3展示了在两种不同视图下的定性结果。Hi3D在性能上始终优于现有的基于2D扩散的方法。具体来说,Hi3D的PSNR达到了24.26%,比最佳竞争对手EpiDiff高出3.77%。Hi3D的最高图像质量得分突显了视频扩散基于范式的关键优势,即利用3D先验知识来提升新视图合成的效果。
由于图像独立翻译,Zero123系列(例如,Stable-Zero123)未能实现多视图一致性结果(例如,上图3(a)中闹钟头部在不同视图下的一/两个环)。SyncDreamer和EpiDiff通过利用3D中间信息或使用多视图注意机制进一步增强了多视图一致性。然而,由于受到限制的低图像分辨率(256×256),它们的新视图结果仍然存在模糊和不真实的问题(例如,上图3(a)中模糊的闹钟数字)。相反,通过挖掘3D先验并通过视频扩散模型提升多视图图像分辨率,本文的Hi3D成功生成了多视图一致且高分辨率的1024×1024图像,从而实现了最高的图像质量(例如,上图3(a)中清晰可见的闹钟数字)。
单视图重建
下表2中评估了Hi3D的单视图重建性能。此外,下图4展示了Hi3D与现有方法的定性比较。总体而言,Hi3D在两个指标上均优于最先进的方法。One-2-3-45直接利用Zero123的多视图输出进行重建,但其3D一致性较差,通常导致生成的网格过于平滑,细节较少。Stable-Zero123通过使用更高质量的训练数据进一步提高了3D一致性,但仍然存在缺失或过于平滑的网格问题。与Zero123中的独立图像翻译不同,SyncDreamer、EpiDiff和Wonder3D通过2D扩散模型同时进行多视图图像翻译,从而实现了更好的3D一致性。然而,由于低分辨率多视图图像的限制,它们在重建复杂的3D网格和丰富细节方面仍然面临挑战。相比之下,Hi3D充分发挥了预训练视频扩散模型中固有的3D先验知识,并将多视图图像提升到更高的分辨率。这种设计使得3D网格重建的质量更高,细节更丰富(例如,下图4中鸟和企鹅的脚部)。
消融研究
3D感知多视图优化阶段的效果。 在这里检查第二阶段(即3D感知多视图优化)对新视图合成的有效性。下表3详细列出了Hi3D的消融实验结果。具体而言,第二行去除了整个第二阶段,性能大幅下降。这验证了通过3D感知视频到视频的优化器提升多视图图像分辨率的有效性。此外,当仅去除第二阶段中的深度条件(第三行)时,性能明显下降,这表明深度条件在增强多视图图像之间的3D几何一致性方面的有效性。
3D重建中插值视图数量的影响。 下表4显示了使用不同数量的插值视图