文章链接:
近年来,人工智能生成内容(AIGC)方面取得了显著进展,涉及多种输入形式,如文本、图像、视频、音频和3D内容。其中,3D内容是最接近真实世界3D环境的视觉形式,并蕴含着巨大的知识量。3D内容生成展示了学术和实践价值,同时也面临着巨大的技术挑战。本文旨在总结3D内容生成领域的发展,提出了一个新的分类法,将现有方法分为三类:3D朴素生成方法、基于2D先验的3D生成方法和混合3D生成方法。这项调查涵盖了大约60篇涉及主要技术领域的论文。此外讨论了当前3D内容生成技术的局限性,并指出了未来工作的开放挑战和有前景的方向。
一个超棒的3D内容生成资源地址:
介绍
生成模型在自然语言处理(NLP)和图像生成领域取得了巨大的成功。最近的发展,如ChatGPT和Midjourney,已经彻底改变了许多学术和工业领域。例如,AI写作和设计助手显著缩短了论文写作和图像设计的时间。在3D领域,随着3D数据量的增加以及其他领域生成技术的成功,3D生成技术也取得了重大进步。
由于其广泛的应用,3D内容生成的研究越来越受到关注。典型的应用包括:
过去几年见证了3D朴素生成方法的许多进展。这些方法的主要思想是首先使用3D数据集训练网络,然后以前馈方式生成3D资源。这一系列方法的一个局限性是需要大量的3D数据集,而3D数据的数量很少。
由于图像文本对的数量远远大于3D对应物,最近出现了一种新的研究方向,即基于大规模配对图像文本数据集训练的2D扩散模型构建3D模型。一个代表性方法是DreamFusion,它通过使用分数蒸馏采样(SDS)损失来优化NeRF。
最近还出现了混合3D生成方法,将3D朴素和基于2D先验的生成方法的优势结合起来。典型的例子是one2345++,它通过使用基于2D先验的多视角图像输入来训练3D扩散模型生成3D模型。最近两年见证了3D生成技术的显著发展,特别是文本到3D和图像到3D任务。这些进展为3D内容生成提供了许多潜在的解决方案,如3D朴素生成、基于2D先验的3D生成和混合3D生成。
根据最新了解,与本文的调查相关的只有两篇综述文章。[Shi等,2022]几乎只涵盖了形状生成和单视图重建的早期技术。[Li等,2023a]只包括了部分基于2D先验的3D生成方法,并没有涵盖最近的大部分3D朴素和混合生成方法。
然而,这个领域经历了快速的发展,包括3D朴素、基于2D先验的和混合生成方法。因此,迫切需要一份综合性的调查来整合这些新进展,并帮助从业者更好地探索不断扩展的研究前沿。
本文贡献总结如下:
初步
3D表示
有效地表示3D几何数据对于生成3D内容至关重要。介绍3D表示对于理解生成3D内容至关重要。当前的3D表示通常分为两类,即显式表示和隐式表示。
显式表示
显式表示通常指的是直接和明确地表示3D对象的几何形状或结构。它涉及明确定义对象的表面或体积表示,例如通过使用点云、体素或网格。显式表示的优势在于它能够实现更精确的几何控制和多尺度编辑。
「点云」
点云是3D数据的基本表示,涉及从3D对象或环境中采样表面点。点云通常直接从深度传感器中获取,因此在各种3D场景理解问题中得到广泛应用。深度图和法线图可以视为点云范式的特定实例。鉴于获取点云数据的便利性,在AIGC-3D领域,这种表示方法被广泛使用。
「体素」
体素是另一种常见的3D表示,涉及在基于规则的栅格结构上分配值。这使得一个体素可以编码一个3D形状或场景。由于体素的规则性质,它们与卷积神经网络的集成良好,并在深度几何学习任务中得到广泛应用。由于与CNN的兼容性,体素也是利用深度神经模型的生成3D内容技术的常见选择。
「网格」
网格表示使用一组顶点、边和面来建模3D形状和场景。这使得网格可以编码表面的3D位置信息和拓扑结构。与体素相比,网格专门关注建模表面几何,提供了更紧凑的存储格式。与点云相比,网格提供了表面元素之间的显式连接,从而使点之间的空间关系建模成为可能。由于这些优势,网格长期以来在经典计算机图形学领域(如几何处理、动画和渲染)中被广泛使用,其中准确性、互操作性和效率是优先考虑的因素。在这些维度上取得平衡,网格已经成为3D内容创建中主要的表示方法。
隐式表示
隐式表示将3D对象或形状隐含地定义出来。通常采用代表对象表面的水平集或函数。它提供了一种紧凑而灵活的3D形状表示,允许对对象、场景和具有复杂几何和纹理的人物进行建模。隐式表示的优势在于其与微分渲染管线的灵活嵌入。
神经辐射场(NeRF)是一种新兴的神经渲染方法,已经在复杂场景的新视图合成方面取得了令人印象深刻的结果。NeRF包括两个主要组件,包括体积光线跟踪器和多层感知器(MLP)。尽管NeRF在渲染输出方面可能会较慢,但它通常被用作AIGC-3D应用中的全局表示。
「3D Gaussian Splatting」
3D Gaussian Splatting(3D GS)引入了一种有效的方法,用一组位于3D空间中的加权高斯分布隐式地表示3D场景,从而实现了新视图合成。通过将表面元素或点建模为高斯blobs,这种方法能够使用少量分布来捕捉复杂的场景结构。通过基于分布的范式隐式地编码丰富的场景信息,3D Gaussian Splatting在新视图合成中脱颖而出,成为一种创新的技术。尽管3D Gaussian Splatting能够快速生成结果,但结果不稳定,在AIGC-3D中最近也有了应用。
「有符号距离函数」
有符号距离函数(SDF)将3D表面定义为距离场的零水平集,其中空间中的每个点被赋予一个值,该值对应于其到表面的有符号最短距离。SDF通过利用距离值而无需显式网格表示来实现高效的操作,例如构造实体几何。它们通过水平集方法实现了平滑的表面重建,并支持高级模拟。DMTet采用了一种混合表示方法,结合了有符号距离函数(SDF)和网格,通常用于优化生成的3D几何体。
2D扩散模型
扩散模型指的是一类基于去噪扩散概率模型(DDPM)框架的生成技术。DDPM训练模型执行逆扩散过程——从一个噪声信号开始,并应用迭代去噪步骤来恢复原始数据分布。从数学上讲,这个过程可以表示为,其中是原始信号经过t个扩散步骤后的带噪声版本,加入了高斯噪声ϵ∼ N (0,σ
3D朴素生成方法
3D朴素生成方法直接在3D数据的监督下生成3D表示,其中表示和监督是生成质量的两个关键组成部分。现有的3D朴素生成方法可以分为三类:物体、场景和人物。下图1中展示了几个重要的里程碑方法。
物体
通过适当的条件输入,3D朴素生成器可以被训练用于物体级别的生成。早期的尝试,例如Text2Shape在语言和3D物理属性之间建立了多对多的关系,实现了对颜色和形状的生成控制。
然而,Text2Shape只收集了15K个椅子和桌子的75K个语言描述。ShapeCraft逐渐演变出更多短语,构建了一个包含369K个形状-文本对的数据集,命名为Text2Shape++。为了支持递归生成,ShapeCraft 使用了矢量量化的深度隐式函数来捕获局部细节。最近,SDFusion提出了将条件特征嵌入到扩散训练的去噪层中,允许多模态输入条件。
受到可用3D数据和相应字幕的限制,先前的3D朴素生成模型只能处理有限的类别。为了支持大词汇量的3D生成,先驱性工作Point-E和Shap-E收集了数百万个3D资源和相应的文本字幕。Point-E 训练了一个图像到点扩散模型,其中将CLIP视觉潜在code输入到Transformer中。Shap-E 进一步引入了潜在投影,以实现SDF表示的重建。然而,提出的数据集并未向公众发布。作为替代,最近的工作必须基于一个相对较小的数据集Objaverse进行实验。
LRM提出了学习一个图像到三面隐空间,然后重新塑造潜在特征以重建基于三面的隐式表示。DMV3D将LRM视为一个去噪层,进一步提出了一个T步骤扩散模型,以基于LRM生成高质量的结果。TextField3D 提出了用于开放词汇生成的方法,其中文本潜在空间注入了动态噪声以扩展潜在特征的表达范围。
场景
早期方法利用生成对抗网络(GAN),明确地融合了一个参数化函数,称为辐射场。该函数以3D坐标和相机姿态作为输入,并为3D空间中的每个点生成相应的密度标量和RGB值。然而,GAN存在训练病态问题,包括模式崩溃,并且很难在不存在规范坐标系的数据上进行训练,这就是3D场景的情况。
为了克服这些问题,GAUDI学习了一个适合于使用自动解码器学习的一组场景潜在变量的去噪扩散模型。然而,这些模型都具有一个固有的缺点,即试图将整个场景捕捉到一个条件神经辐射场中的单个向量中。这限制了拟合复杂场景分布的能力。
NeuralField-LDM首先将图像和姿态对表示为潜在code ,并学习分层扩散模型来完成场景生成。然而,当前的方法耗时且分辨率相对较低。最近的采用了分层体素潜在扩散,以粗到精的方式生成更高分辨率的3D表示。
虚拟人
早期的3D虚拟人生成方法依赖于参数化模型,这些模型使用一组预定义的参数来创建具有表现力的人脸或人体的3D网格。3D可变形模型(3DMM)是一种统计模型,将虚拟人面部的内在属性分解为身份、表情和反射。这些属性被编码为低维向量,可以用于从2D图像或视频素材生成逼真的3D人脸。
对于人体,最广泛使用的参数化模型之一是皮肤多人线性(SMPL)模型,它使用线性和非线性变换的组合来创建逼真的人体3D网格。SMPL基于从大量身体扫描数据集中学习的统计身体形状和姿势模型。尽管参数化模型取得了成功,但它们具有一些限制,特别是在建模复杂几何形状,如头发和宽松服装方面。
近年来,人们越来越多地采用基于学习的方法来建模3D虚拟人。这些方法使用深度学习算法从3D扫描或多视角图像数据集中学习逼真而详细的虚拟人。PIFu引入了像素对齐的隐式函数,可以从单个图像生成具有复杂形状的高度详细的着装虚拟人3D模型。
HeadNeRF提出了基于NeRF的参数化头部模型,可以生成具有高保真度的头部图像,并具有操纵渲染姿势和各种语义属性的能力。SMPLicit和gDNA使用来自已注册的3D扫描数据的隐式函数训练着装虚拟人的3D生成模型。最近,Rodin基于三面表示提出了一种滚动扩散网络,可以从大规模的合成多视角数据集中学习详细的3D虚拟头部。
基于2D先验的3D生成方法
先前,大多数3D朴素生成方法局限于像ShapeNet这样的受限数据集,其中仅包含固定的物体类别。文本到图像扩散模型的最新进展开辟了新的可能性。DreamFusion利用分数蒸馏抽样技术,将强大的2D扩散模型的知识转化为优化3D表示,如NeRF,从而显著提高了文本到3D合成质量。这一范式将基于扩散的方法的范围迅速扩展到了从物体到场景和虚拟人等其他领域。下图2中展示了几个重要的方法。
物体
DreamFusion开创了根据每个文本输入或每个图像优化唯一的3D表示的范式,受强大的预训练2D扩散模型的指导。这种方法确立了一个新的基础,但也揭示了前进的关键挑战 - 即在分辨率、几何细节和纹理保真度方面实现高保真度质量;确保在多种视角下生成一致,即“多面Janus问题”;以及为交互应用程序优化合成速度。
为了实现高保真度质量,Magic3D引入了一个两阶段的粗到精的优化策略。这种方法提高了速度和质量。Fantasia3D对几何和外观建模进行了解耦,推进了文本到3D的质量。对于几何部分,它依赖于混合场景表示,并将提取的表面法线编码到图像扩散模型的输入中。
在外观方面,Fantasia3D引入了空间变化的双向反射分布函数,用于学习生成几何的表面材料,以实现照片般逼真的渲染。尽管早期方法存在过饱和和低多样性的问题,但ProlificDreamer引入了变分分数蒸馏来解决这些挑战。
然而,由于稳定扩散对2D前视图的偏好,其3D输出往往倾向于重复不同角度的前视图,而不是生成连贯的3D对象。与在多视角3D数据上微调以缓解多面扬尼斯问题相反,一些工作探索了替代方法。
例如,DreamControl利用自适应视角采样和边界完整性度量。虽然基于NeRF的以前的每个样本优化方法在3D生成任务中速度较慢,但3DGS的快速发展实现了突破。
DreamGaussian将3DGS整合到生成式3D内容创建中,与基于NeRF的方法相比,实现了约10倍的加速。与NeRF中使用的占用剪枝相比,3D高斯的渐进密集化对于这些3D生成问题收敛速度显著更快。DreamGaussian引入了一种高效的算法,将生成的高斯函数转换为带纹理的网格。这项开创性的工作展示了3DGS如何实现AIGC-3D的更快训练。
除了联合几何和纹理生成之外,另一种范式涉及给定预定义几何的纹理映射,称为“纹理绘制” - 也是一种内容创建形式。这一领域的代表工作包括TEXTure和TexFusion,它们利用预训练的深度到图像扩散模型,并应用迭代方案将纹理绘制到从多个视角观察的3D模型上。通过将纹理生成与几何建模的分离挑战分开,这些方法提供了一个值得探索的替代研究方向。
场景
基于2D先验的场景生成的主要思想是利用2D预训练大模型生成部分场景。然后,应用修补策略来生成大规模场景。Text2room是使用2D预训练模型生成2D图像深度的典型例子。然后,对图像进行了更深的修补。这些深度被合并以生成大规模场景。
LucidDreamer首先利用修补策略从输入中生成多视角一致的图像。然后,将修补后的图像提升到3D空间并估计深度图,将新的深度图合并到3D场景中。SceneTex使用深度到图像扩散先验为室内场景生成场景纹理。该方法的核心在于提出了一个隐式编码网格外观的多分辨率纹理场。然后,在相应的RGB渲染中使用VSD损失对目标纹理进行优化。
此外,SceneDreamer引入了鸟瞰视角(BEV)场景表示和神经体积渲染器。该框架从2D图像集合中学习一个无条件的生成模型。借助这个模型,可以从噪声中生成无界的3D场景,而不需要任何特定的条件。
虚拟人
在文本引导的3D人物生成领域,参数模型被广泛用作基本的3D先验,因为它们可以提供准确的几何初始化并显著降低优化难度。AvatarCLIP 是第一个将视觉语言模型与来自参数模型的隐式3D表示相结合,实现了全身虚拟人的零样本文本驱动生成。在使用预训练的2D潜在扩散模型提供动力的SDS生成3D对象取得成功后,最近的工作也将这些方法扩展到了人物生成。
HeadSculpt通过将预训练的扩散模型与从3D参数化头部模型获得的多视图地标图进行条件化,生成一致的3D头像。遵循这一方案,DreamWaltz提出了考虑遮挡的SDS和骨架条件化,以保持3D一致性并在优化过程中减少伪影。通过在imGHUM的语义签名距离空间中优化NeRF并使用多个细粒度损失,DreamHuman生成具有特定实例表面变形的可动态变化的3D人物。HumanGaussian将SDS与SoTA 3DGS表示相结合,实现了更高效的文本驱动3D虚拟人生成。
混合型3D生成方法
早期的3D朴素生成方法受限于稀缺的3D数据集,而2D先验方法只能提炼有限的3D几何知识,研究人员探索了将3D信息注入预训练的2D模型中。新兴方法包括在多视角对象图像上微调稳定扩散以生成一致的视角,以及从多个视图进行3D重建和生成。
这种范式转变解决了上述的缺点,通过利用丰富的2D视觉资源和有针对性的3D监督来克服每种方法单独的限制。下图3中介绍了几个具有里程碑意义的方法。
物体
第一次尝试是Zero123,它应用3D数据来微调预训练的2D扩散模型,实现了基于单个输入视角的新视角生成。这项具有洞察力的工作表明,稳定扩散本质上包含了广泛的3D知识,可以通过多视角微调来解锁。
在此基础上,One-2-3-45利用Zero123生成多个视角。然后,它连接了一个重建模型,在短短45秒内从单个图像生成3D网格,并取得了令人满意的结果。这种方法超越了先前依赖于2D先验的优化,显著提高了3D生成的速度。
虽然Zero123中新生成的视角与给定的视角一致,但在生成的新视角之间却没有保持一致性。作为回应,一些工作旨在同时产生具有面试一致性的多个视角。
SyncDreamer,MVDream都能够同时生成多个视角,视角之间进行信息交换以确保一致性。Wonder3D引入了一个法向模型,并通过对多视角稳定扩散模型进行微调,同时跨视角输出RGB和法线图。One-2-3-45++通过增强的Zero123模块推进了多视角3D生成,实现了同时的跨视角注意力,以及一个多视角条件化的3D扩散模块,随着时间的推移进行了粗到细的纹理网格预测。
随后的几项工作引入了3D先验初始化以提高3D生成内容的质量。Dreamcraft3d使用视角相关的扩散模型对DMTet表示进行初始化。Gsgen利用Point-E初始化3D高斯位置以进行生成。通过提前合并不同形式的3D结构信息,这些论文与缺乏初始化技术的先前方法相比,产生了更一致的3D输出。
在像LRM这样的大规模重建模型取得成功之后,Instant3d也采用了一个两阶段的方法。在第一阶段,它进行了多视图生成。然后,第二阶段通过基于Transformer的新型稀疏视图重建器直接对生成的图像回归NeRF。结合多视角稳定扩散和大规模重建模型可以有效解决多面和生成速度的问题。
场景
最近提出了几种关于3D场景生成的方法。MVDiffusion同时生成所有图像并具有全局意识,有效解决了误差积累的常见问题。MVDiffusion的主要特点是其能够使用预训练的文本到图像扩散模型并行处理透视图像,同时结合新颖的对应感知注意力层来增强跨视图的交互作用。
ControlRoom3D是一种仅通过用户提供的房间风格文字描述和用户定义的房间布局来生成高质量3D房间网格的方法。简单的基于布局的3D房间生成方法不能产生合理的网格。为了解决几何问题并确保一致的风格,ControlRoom3D利用了引导全景图生成和几何对齐模块。
SceneWiz3D引入了一种从文本合成高保真度3D场景的方法。给定一段文字,首先生成布局。然后,应用粒子群优化技术根据布局自动放置3D对象并隐式优化3D场景。
SceneWiz3D还利用RGBD全景扩散模型进一步改善了场景几何。
虚拟人
关于3D人物生成的几项研究已经利用了2D和3D数据/先验,以实现更真实和普遍的3D人物合成,其中3D数据提供准确的几何信息,而2D数据提供多样化的外观。
SofGAN提出了一个可控的人脸生成器,其几何和纹理的解耦潜空间是从未配对的2D图像和3D面部扫描数据集中学习的。3D几何信息被编码到语义占用场中,以促进一致的自由视角图像生成。
类似地,SCULPT也提出了一种未配对的学习过程,有效地从中等规模的3D扫描数据集和大规模的2D图像数据集中学习全身穿着人类的几何和纹理的分离分布。
Get3DHuman通过结合两个预训练网络,即StyleGAN-Human图像生成器和3D重建器,避免了对3D训练数据的需求。
受近期文本到图像合成模型的重大进展的推动,研究人员已经开始利用3D人物数据来增强强大的2D扩散模型,以合成具有高频细节的逼真3D虚拟人。
DreamFace通过将视觉语言模型与可动和基于物理的面部资源相结合,生成逼真的可动3D头像头像。通过一个新颖的纹理扩散模型和预先训练的扩散先验相结合,实现了逼真的渲染质量。
HumanNorm提出了一个用于3D人物生成的两阶段扩散pipeline,首先通过一个适应法线的扩散模型生成详细的几何信息,然后使用一个与生成的几何信息相对齐的扩散模型合成逼真的纹理。这两个扩散模型都在一个包含2.9K个3D人物模型的数据集上进行了微调。
动态3D
动态3D生成近来引起了广泛关注,通过同时优化2D、3D和视频先验。开创性工作MAV3D提出了生成静态3D资源,然后通过文本到视频扩散来为其添加动画,其中,引入了一种名为六面体平面的4D表示,以扩展具有时间维度的3D空间。在MAV3D之后,一系列工作基于静态到动态的pipeline创建了动态3D内容,同时提出了不同的4D表示和监督方法以提高生成质量。
Animate124引入了一个图像到4D的框架,其中六面体平面被4D网格编码替代。除了静态和动态阶段外,进一步提出了一个细化阶段,用ControlNet引导图像输入和4D创建的语义对齐。
4D-fy提出了一种多分辨率哈希编码,将3D和时间空间分开表示。它强调了3D生成质量的重要性,并利用3D先验来指导静态阶段的优化。
最近的研究尝试基于生成的视频重建3D场景,引入了一种新的4Dpipeline,生成视频然后补充其3D表示。
4DGen通过多视角扩散先验生成伪多视角视频,并基于多分辨率六面体平面优化高斯分布的重建。
DreamGaussian4d利用3D感知扩散先验监督给定视频的多视角重建,并使用视频扩散先验对相应的场景进行细化。
未来方向
尽管近年来在3D内容生成方面取得了一些进展,但仍然存在许多未解决的问题,这些问题将极大地影响3D内容生成方法的质量、效率和可控性。在本节中,我们总结了这些挑战,并提出了几个未来的方向。
挑战
就质量而言,当前的AIGC-3D方法存在一些局限性。在几何方面,它们无法生成紧凑的网格,并且无法模拟合理的连线。在纹理方面,它们缺乏生成丰富细节贴图的能力,并且很难消除光照和阴影的影响。材质属性也得不到很好的支持。
就可控性而言,现有的文本/图像/素描到3D方法无法精确输出符合条件要求的3D资源。编辑能力也不足。在速度方面,基于GS的前馈和SDS方法速度更快,但质量比基于NeRF的优化方法较低。总的来说,以生产级质量、规模和精度生成3D内容仍然没有得到解决。
数据
关于数据,一个挑战在于收集包含数十亿个3D对象、场景和人物的数据集。通过一个开放世界的3D游戏平台可能可以实现这一目标,用户可以自由创建和上传自己定制的3D模型。此外,从多视角图像和视频中提取丰富的隐式3D知识将是有价值的。具有这种多样、无标签的大规模3D数据集具有推进无监督和自监督学习方法在生成式3D内容创建方面的巨大潜力。
模型
有必要探索更有效的3D表示和模型架构,能够随着数据集的增长展现出规模化的性能。这提供了一个有前景的研究方向。在未来几年,我们可能会看到专门用于3D内容生成的基础模型的出现。此外,未来的大型语言模型可能会实现高水平的多模态智能,例如GPT-5/6,可以理论上理解图像、文本,甚至以专家级水平运行3D建模软件。然而,确保这种强大系统的有益发展将需要进行大量研究。
基准测试
目前,对3D内容质量的评估主要依赖于人工评分。引入了一种用于文本到3D生成的自动化人工评估器。然而,全面评估3D输出是具有挑战性的,因为它需要理解物理3D属性和预期设计。3D生成的基准测试在2D图像生成基准测试方面进展缓慢。基于逼真标准开发能全面衡量几何和纹理保真度的稳健指标,可以推动该领域的发展。
结论
在本调研中,对3D生成内容技术进行了全面的分析,包括3D本地生成、基于2D先验的3D生成和混合3D生成。介绍了一种新颖的分类方法,简洁地总结了近期用于生成3D内容的方法的进展。此外,还总结了该领域尚未解决的挑战,并提出了几个有前景的研究方向。坚信这项研究将成为一项宝贵的资源,引导着该领域的进一步发展,研究人员将从本研究中汲取灵感,解决这个领域中引人注目的未解问题。
原文链接: