自定义3D编辑和资产生成上海AI 3D版裁缝开源来袭！Tailor3D 港大&amp

文章链接：链接：

亮点直击：

3D AIGC（人工智能生成内容）的最新进展展示了直接从文本和图像创建3D对象的潜力，在动画和产品设计中带来了显著的成本节约。然而，详细编辑和定制3D资产仍然是一个长期存在的挑战。具体来说，3D生成方法在遵循精细的指令方面还无法像2D图像生成那样精确。想象一下，你可以通过3D AIGC得到一个玩具，但其配件和装饰可能不符合你的期望。为了解决这个问题，本文提出了一种名为的新型pipeline，可以迅速从可编辑的双面图像中创建定制的3D资产。本文的目标是模仿裁缝的能力，能够局部改变对象或执行整体风格迁移。与从多个视角创建3D资产不同，使用双面图像消除了编辑单个视角时出现的重叠区域冲突。

具体而言，它首先编辑正视图，然后通过多视图扩散生成对象的背视图。之后，再编辑背视图。最后，提出了一种 双面LRM ，用于无缝地将前后3D特征拼接在一起，就像裁缝将衣服的前后部分缝合在一起。双面LRM修正了前后视图之间的不完美一致性，增强了编辑能力，减少了内存负担，同时通过LoRA Triplane Transformer将它们无缝集成到统一的3D表示中。实验结果表明，Tailor3D在各种3D生成和编辑任务中都有效，包括3D生成填充和风格迁移。它提供了一种用户友好且高效的3D资产编辑解决方案，每一步编辑只需几秒钟即可完成。

方法

本节介绍Tailor3D的pipeline和模型架构。首先，介绍大规模重建模型（LRM）和多视图扩散。接下来，概述了Tailor3D的过程，展示了2D编辑和快速重建3D对象的方法。再深入探讨了双面LRM，解释如何处理输入的前后视图不完全一致的问题。还解释了LoRA Triplane Transformer如何减少内存使用以及视点交叉注意力如何融合前后视图的3D三平面。

初步

Tailor3D的pipeline

本节概述了Tailor3D的pipeline，如下图1下部所示。

对于自注意力，qkv由共享线性层生成，将所有输入和输出线性层替换为LoRA结构。对于交叉注意力，qkv由不同的线性层生成，将所有qkv和输出线性层替换为LoRA结构。具体细节如下。

这里，i表示第i个Transformer层。对于自注意力，tp表示输入和输出的线性投影。对于交叉注意力，tp表示q、k、v和输出的线性投影。

实验

数据集：Gobjaverse-LVIS

实现细节

实验结果

实验展示了Tailor3D在3D生成方面的能力，包括几何对象填充、纹理合成和风格迁移。后面将本文的方法与现有技术进行了比较。并进行了消融实验，以验证Tailor3D的每个模块。

Tailor3D应用

展示了其在3D生成几何/图案填充方面的多功能性，涵盖局部几何形状和纹理图案填充。突出了其风格迁移和融合能力，允许进行如风格转移和将两种风格融合到一个对象上的操作。Tailor3D使用户能够编辑对象的正面和背面，扩展了定制3D对象的编辑可能性。

3D生成几何/图案填充 。在这里，展示了Tailor3D的局部3D对象填充能力，如下图4所示。通过文本或图像提示逐步展示对象填充和编辑。在第2行，从盔甲开始，通过逐步添加头部、手和斗篷生成了一个中世纪将军。第3行展示了其他对象的操作，包括添加邮箱、气球、花丛和篮球框。

3D风格迁移和融合 。Tailor3D还展示了其对各种风格的转移和融合能力。与以往的方法不同，Tailor3D确保了知识产权的完整性，同时提供了通过图像或文本指导指定风格的灵活性。特别是，它利用Midjourney进行2D图像生成和编辑。此外，Tailor3D能够将不同的风格注入到对象的正面和背面，展示了双面LRM的融合能力的有效性。

与现有的3D图像到3D生成方法的比较

将本文的方法与Wonder3D、TriplaneGaussian和 LGM在由Stable Diffusion生成的100张图像的测试集上进行了比较。下图5中的定性结果展示了Tailor3D利用双面LRM增强背面信息的能力。

Wonder3D和TriplaneGaussian在处理复杂对象时表现不佳，整体质量较低。使用高斯表示的LGM存在重影效应，并且在树叶等特征上缺乏细节。下表1中提供了定量结果以及生成时间，突显了本文方法的实用价值。

消融研究

对双面LRM进行了消融研究，重点关注三个方面：双面3D特征的融合、LoRA Transformer的等级，以及前后图像的外部相机参数。结果如下表2所示。

双面特征融合方法 。使用视点交叉注意力来融合前后两面的特征。此外，尝试使用多层2D卷积层和直接相加来融合双面的三平面特征。结果表明，使用视点交叉注意力产生了最佳效果。

LoRA三平面Transformer的等级 。对LoRA三平面Transformer的等级进行了消融实验，分别设置为2、4和8。实验结果表明，等级为4时性能最佳。

限制与结论

本文介绍了Tailor3D，这是一种通过可编辑的双面图像快速创建定制3D资产的方法，类似于裁缝的工作方式。通过利用2D图像编辑技术和快速3D重建，Tailor3D允许用户对对象进行迭代性地调整。双面LRM和LoRA三平面Transformer充当“裁缝”，无缝地将前后视图结合起来，处理不一致性并提高重建质量。实验结果验证了Tailor3D在3D生成填充和风格定制等任务中的有效性。它提供了一个用户友好、成本高效的解决方案，用于快速的3D编辑，适用于动画、游戏开发等领域，简化了生产过程并使内容创作更加普及。

限制与未来方向 然而，仅依赖前后视图进行物体重建可能会遇到某些厚度的物体带来的挑战。此外，生成的3D物体网格可能具有较低的分辨率，添加的几何特征可能对网格的变化不大。将在未来的工作中进一步研究解决厚侧轮廓物体的生成与重建问题的方法，旨在提高网格的质量和分辨率。

原文链接:

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#言犀 #云雀 #大模型 #文心一言 #Bard #清言 #GPT #4 #紫东太初 #AI #ChatGPT #人工智能 #悟道 #Agent #盘古 #Copilot #AIGC #模型 #混元 #AIGC应用 #3D #孟子 #多模态 #通义千问 #日日新 #Sora #OpenAI #开源大模型 #LaMDA