全球社交、科技巨头Meta发布了全新文生3D模型——Meta 3D-Gen。
用户通过Meta 3D-Gen仅需1分钟就能生成人物、动物、道具、服饰、工业设计等不同类型的高质量3D模型。
Meta 3D-Gen不仅生成的内容是高分辨率的纹理和材质贴图,还支持物理渲染光影效果非常好,适用于游戏开发、电影制作、虚拟现实、建筑设计等领域,帮助开发人员节省大量时间。
多视图到3D重建
多视图到3D重建是Meta 3D-Gen的两大核心模块之一,主要将用户输入的文本提示转换为3D空间中的具体形态,包括形状、结构、材质、纹理等。例如,“一只穿着绿色羊毛毛衣的暴龙”,需要根据文本中的绿色、毛衣、暴龙等元素解析出对应的建模。
首先,Meta使用了自研的一个多视图和多通道版本的文本到图像生成模型Emu,来生成一系列相对一致的物体视角图像。该过程就像是通过不同角度拍摄同一物体的照片,为后续的3D模型重建提供了多视角的视觉信息。
Emu模型经过精心微调,使用了合成3D数据的渲染图像,以便在视图空间中进行多视图生成,同时也在UV空间中进行生成,从而产生更优质的纹理。
然后,从这些多视角图像中提取出3D物体的初步版本,将其转换为体积空间中的表示。这是通过从多个角度的图像中重建3D形状的过程,类似于从多个快照中拼接出一个立体模型。
重建后的3D模型不仅包含了物体的形状,还附带了初步的纹理和物理渲染材质贴图,这对于在真实世界中应用非常有帮助。
为了更精准地获取3D形状,Meta 3D-Gen还使用了基于有符号距离场的优化表示法 ,这是一种用于描述3D形状的方法,可以计算出物体表面相对于某点的距离,对于保持形状的细节和精确性非常有效,能够在保证3D模型结构完整性和细节丰富性的同时,也确保了模型的拓扑质量。
3D纹理细化
在第一阶段获取精准的3D模型之后,就需要借助3D纹理生成进一步细化、增强3D模型效果。
纹理细化是基于初始的3D模型和用户提供的文本描述,生成一系列物体的多视图图像。这些图像不仅仅是简单的渲染,还包含了物体的光照外观以及其固有色,也就是在没有外部光源影响下的物体基本颜色。
在优化的过程中,Meta 3D-Gen通过一个神经网络可将多个视角下的信息进行融合,生成一个在视觉上连贯且一致的纹理 。为了增强纹理的效果,Meta 3D-Gen还内置了优化增强神经网络,输入的视图重新投影到纹理空间,生成2K、4K或更清晰的纹理细节。
为了测试该模型的性能,研究人员将Meta 3D-Gen与CSM Cube 2.0、Tripo3D、Rodin Gen-1 V0.5和Meshy v3知名文本生成3D模型进行了综合对比。
结果显示,Meta 3D-Gen在文本语义还原、视觉质量和纹理、生成效率等关键评测指标上超越了这些模型。尤其是Meta 3D-Gen的生成效率非常高,比现有模型快3—60倍左右。
原文链接: