非常令人激动,腾讯混元文生图大模型已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型。
且不管是企业还是个人开发者,全部免费可用。
主页:代码:
下面来详细介绍下混元大模型的技术细节,期待国内更多大模型能发布,让AIGC行业应用全面爆发:
Hunyuan-DiT ,这是一种具备细粒度理解能力的文本到图像扩散transformer,能够处理中文和英文。为了构建Hunyuan-DiT,精心设计了transformer结构、文本编码器和位置编码。此外,还从头开始建立了完整的数据pipeline,以更新和评估数据,进行迭代的模型优化。
为了实现细粒度的语言理解,训练了一种多模态大语言模型,用于细化图像的标题描述。
最终,Hunyuan-DiT能够与用户进行多轮多模态对话,根据上下文生成和优化图像。通过我们综合的人类评估协议,超过50位专业评估员参与评估,Hunyuan-DiT在中文到图像生成方面相比其他开源模型设立了新的标杆。
介绍
基于扩散的文本生成图像模型,如DALL-E、Stable Diffusion和Pixart,已经展示了生成前所未有质量图像的能力。然而,它们缺乏直接理解中文提示的能力,限制了其在中文文本提示下的图像生成潜力。为了提高中文理解能力,提出了AltDiffusion、PAI-Diffusion和Taiyi,但它们的生成质量仍需改进。
在本报告中,介绍了构建Hunyuan-DiT的完整流程,该模型可以根据中文和英文提示生成不同分辨率的高质量详细图像。
Hunyuan-DiT的贡献:
为了全面评估Hunyuan-DiT的性能,还制定了一个包含50多位专业评估员的评估协议。该协议仔细考虑了文本生成图像模型的不同维度,包括文本-图像一致性、AI伪影、主体清晰度、美学等。评估协议被纳入数据护航中以更新生成模型。
Hunyuan-DiT在开源模型中实现了SOTA性能。在中文生成图像方面,Hunyuan-DiT在文本-图像一致性、排除AI伪影、主体清晰度和美学方面优于现有开源模型,包括Stable Diffusion 3。在主体清晰度和美学方面,其表现与顶级闭源模型如DALL-E 3和MidJourney v6相当。
在中文元素理解方面,包括古代汉诗和中国菜等类别,Hunyuan-DiT生成的图像质量和语义准确性较其他比较算法更高。Hunyuan-DiT支持长文本理解,最多可达256个token。Hunyuan-DiT可以使用中文和英文文本提示生成图像。在本报告中,除非另有说明,所有图像均使用中文提示生成。
方法
基于扩散transformer的改进生成
Hunyuan-DiT 是一个在潜空间中运行的扩散模型,如下图7所示。按照潜扩散模型(Latent Diffusion Model),使用预训练的变分自编码器(VAE)将图像压缩到低维潜空间,并训练一个扩散模型来学习数据分布。扩散模型通过transformer进行参数化。为了编码文本提示,结合了预训练的双语(中文和英文)CLIP和多语言T5编码器。下面将详细介绍每个模块。
使用SDXL中的VAE,该模型在512 × 512图像上进行了微调,基于SD 1.5的VAE。实验结果显示,基于高分辨率SDXL VAE训练的文本到图像模型在清晰度、过饱和缓解和失真减少方面优于SD 1.5 VAE。由于VAE的潜空间极大地影响生成质量,将在未来探索更好的VAE训练范式。
文本编码器 一个高效的文本编码器在文本生成图像过程中至关重要,因为它们需要准确理解和编码输入的文本提示以生成对应的图像。CLIP和 T5已成为这些编码器的主流选择。Matryoshka扩散模型、Imagen、MUSE和 Pixart-α仅使用 T5 来增强对输入文本提示的理解。相比之下,eDiff-I和 Swinv2-Imagen融合了 CLIP 和 T5 两种编码器,以进一步提高其文本理解能力。Hunyuan-DiT 选择结合 T5 和 CLIP 进行文本编码,以利用这两种模型的优势,从而增强文本生成图像过程的准确性和多样性。
位置编码和多分辨率生成 在视觉transformer中,一种常见的做法是应用正弦位置编码来编码token的绝对位置。在Hunyuan-DiT中,采用旋转位置embedding(RoPE),同时编码绝对位置和相对位置依赖性。使用二维RoPE,将RoPE扩展到图像域。
尽管扩展位置编码更易于实现,但我们发现它在多分辨率训练中是次优选择。它无法对齐不同分辨率的图像,也无法覆盖 h 和 w 都较大的罕见情况。相反,中心插值位置编码允许不同分辨率的图像共享相似的位置编码空间。使用中心插值位置编码,模型收敛更快,并能更好地推广到新分辨率。
提高训练稳定性 为了稳定训练,提出了三种技术:
数据pipeline
数据处理
训练数据准备pipeline由四部分组成,如图20所示:
数据类别系统
我们发现训练数据中数据类别的覆盖范围对于训练精确的文本生成图像模型至关重要。这里我们讨论两个基本类别:
数据评估
为了评估引入专业数据或新处理数据对生成模型的影响,设计了一个“数据护航”机制,如图21所示,具体包括:
成功运行该机制需要一个完整的文本生成图像模型评估协议。我们的模型评估协议由两部分组成:
细粒度中文理解的标题优化
从互联网上抓取的图文对通常是低质量的,为图像提供更好的对应标题对训练文本生成图像模型非常重要。Hunyuan-DiT 采用训练良好的多模态大语言模型(MLLM)来重新生成原始图文对的标题,以提高数据质量。采用结构化标题来全面描述图像。此外,还使用原始标题和包含世界知识的专家模型,以便在重新生成标题时生成特殊概念。
使用结构化标题重新生成标题 现有的MLLMs,例如 BLIP-2 和 Qwen-VL,往往生成过于简化的标题,这些标题类似于 MS-COCO 标题或高度冗余且与图像无关的标题。为了训练适合改进原始图文对的MLLM,我们构建了一个大规模的结构化标题数据集,并对MLLM进行了微调。
我们使用AI辅助pipeline来构建数据集。人工标注图像标题非常困难,且标注质量难以标准化。因此,使用三阶段pipeline,通过AI辅助提高标注效率。在第一阶段,集成多个基本图像标注模型的标题,并结合人工标注,获得初始数据集。在第二阶段,用初始数据集训练MLLM,然后用训练好的模型为图像生成新标题。随着重新生成标题准确性的提高,人工标注的效率提高了约4倍。
我们的模型结构类似于LLAVA-1.6,由视觉部分的ViT、语言部分的仅解码LLM和连接视觉与文本的适配器组成。训练目标是与其他自回归模型相同的分类损失。
通过信息注入重新生成标题 在人类对结构化标题进行标注时,世界知识总是缺失的,因为人类不可能识别图像中的所有特殊概念。我们采用两种方法将世界知识注入标题中:
多轮对话中的提示增强
理解自然语言指令并与用户进行多轮交互对于文本到图像系统至关重要。它有助于建立一个动态而迭代的创作过程,逐步将用户的想法逐步变为现实。在本节中,我们将详细介绍如何赋予Hunyuan-DiT执行多轮对话和图像生成的能力。已经有许多工作努力为文本到图像模型配备了使用MLLM的多轮功能,例如Next-GPT、SEED-LLaMA、RPG和DALLE-3。这些模型要么使用MLLM生成文本提示,要么使用文本嵌入来为文本到图像模型生成文本。我们选择了第一种选择,因为生成文本提示更灵活。我们训练MLLM以理解多轮用户对话并输出用于图像生成的新文本提示。
主题一致性的保证 在多轮文本到图像中,用户可能要求AI系统多次编辑特定主题。我们的目标是确保跨多个对话轮次生成的主题尽可能保持一致。为了实现这一目标,我们在对话AI代理的“对话提示”中添加了以下约束条件。对于基于前几轮生成的图像进行的图像生成,转换后的文本提示应满足用户当前的需求,同时尽量少地改变与之前图像使用的文本提示。此外,在给定对话的推理阶段,我们固定了文本到图像模型的随机种子。这种方法显著增加了对话中的主题一致性。
推理阶段的优化
工程优化 将Hunyuan-DiT部署给用户是昂贵的,我们采用了多种工程优化策略来提高推理效率,包括ONNX图优化、内核优化、运算符融合、预计算和GPU内存重用。
算法加速 最近,提出了各种方法来减少基于扩散的文本到图像模型的推理步骤。我们尝试将这些方法应用于加速Hunyuan-DiT,出现了以下问题:
考虑到这些问题,我们选择了渐进蒸馏。它具有稳定的训练,并允许在加速比和性能之间平滑地进行权衡,为我们提供了最便宜和最快的模型加速方式。为了鼓励学生模型准确模仿教师模型,我们在训练过程中仔细调整了优化器、无分类器指导和正则化。
评估协议
评估指标
评估维度 :在确定评估维度时,参考了现有文献,并另外邀请了专业设计师和普通用户参与访谈,以确保评估指标既具有专业性又具有实用性。具体来说,在评估我们的文本到图像模型的能力时,采用了以下四个维度:文本-图像一致性、AI伪影、主题清晰度和整体美感。对于引起安全问题的结果(如涉及**、政治、暴力或流血等),直接token为不可接受。
多轮交互评估 :在评估多轮对话交互的能力时,还评估了额外的维度,如指令符合性、主题一致性和多轮提示增强对图像生成的性能。
评估数据集构建
数据集构建 将人工生成的测试提示与人类创建的测试提示相结合,构建了一个具有各种难度级别的分层评估数据集。具体而言,我们根据文本提示内容的丰富程度、描述元素的数量(主题、主题修饰语、背景描述、风格等)、元素是否常见以及是否包含抽象语义(如诗歌、成语、谚语等)等因素,将评估数据集分为三个难度级别 - 简单、中等和困难。
此外,由于使用人工创建测试提示时存在同质性和长期生产周期的问题,我们依赖于LLM来增加测试提示的多样性和难度,快速迭代提示生成,并减少人工劳动。
评估数据集类别和分布 在构建分层评估数据集的过程中,分析了用户在使用文本到图像生成模型时使用的文本提示,并结合用户访谈和专家设计师意见,覆盖了功能应用、角色性质、中国元素、多轮文本到图像生成、艺术风格、主题细节等主要类别。
不同的类别进一步分为多个层次。例如,“主题细节”类别进一步细分为动物、植物、车辆和地标等子类别。对于每个子类别,我们保持提示数量超过30。
评估执行
评估团队 评估团队由专业评估人员组成。他们具有丰富的专业知识和评估经验,能够准确执行评估任务并提供深入分析。评估团队拥有50多名成员。
评估流程 评估流程包括两个阶段:评估标准培训和多人校正。在评估标准培训阶段,我们为评估人员提供详细的培训,以确保他们对评估指标和工具有清晰的理解。在多人校正阶段,让多名评估人员独立评估同一组图像,然后总结和分析评估结果,以减轻评估人员之间的主观偏见。
特别是,评估数据集以3级分层方式构建,包括8个一级类别和70多个二级类别。对于每个二级类别,我们在评估集中有30 - 50个提示。评估集总共有3000多个提示。具体来说,我们的评估分数计算步骤如下:
通过上述过程,我们可以获得模型在不同类别级别上的通过率,以及总体通过率,从而全面评估模型的性能。
评估结果分析 :在评估后,我们对结果进行深入分析,包括:
评估协议演进
在评估框架的持续优化中,将考虑以下几个方面来改进我们的评估协议以适应新的挑战:
结果
定量评估
与最新技术的比较 将混沌-DiT与最新技术的模型进行了比较,包括开源模型(Playground 2.5、PixArt-α、SDXL)和闭源模型(DALL-E 3、SD 3、MidJourney v6)。遵循前面中的评估协议。所有模型都在四个维度上进行评估,包括文本-图像一致性、排除AI伪像的能力、主题清晰度和美感。如表1所示,与其他开源模型相比,Hunyuan-DiT在所有四个维度上取得了最佳得分。与闭源模型相比,Hunyuan-DiT在主题清晰度和图像美感方面可以达到与MidJourney v6和DALL-E 3等SOTA模型类似的性能。就总体通过率而言,Hunyuan-DiT在所有模型中排名第三,优于现有的开源替代方案。Hunyuan-DiT总共有15亿参数。
消融研究
实验设置 我们遵循先前研究中的设置,在MS COCO 256×256验证数据集上使用零样本Frechet Inception Distance(FID)评估模型的不同变体,通过从验证集中的提示生成30,000张图像。还报告了这些生成图像的平均CLIP分数,以检查文本提示和图像之间的对应关系。这些消融研究是在较小的0.7B扩散Transformer上进行的。
跳过模块的影响 长跳过连接用于在U-Net中的对称位置的编码和解码层之间实现特征融合。我们在Hunyuan-DiT中使用跳过模块来模仿这种设计。如图所示,观察到去除长跳过连接会增加FID并降低CLIP分数。
旋转位置编码(RoPE) 将正弦位置编码(DiT中的原始位置编码)与RoPE进行了比较。结果如图15所示。我们发现在大多数训练阶段,RoPE位置编码的性能优于正弦位置编码。特别是,我们发现RoPE加速了模型的收敛。我们假设这是由于RoPE能够封装绝对位置信息和相对位置信息。
我们还评估了在文本特征中包含一维RoPE位置编码的情况,如图15所示。我们发现,将RoPE位置编码添加到文本嵌入中并没有带来显著的收益。文本编码器我们评估了三种文本编码方案:
在图16中,仅使用CLIP编码器的性能优于仅使用多语言T5编码器。此外,将双语CLIP编码器与多语言T5编码器相结合,充分利用了CLIP的高效语义捕捉能力和T5的细粒度语义理解优势,导致FID和CLIP分数显著提高。
我们还在图17中探索了两种合并CLIP和T5特征的方法:沿通道维度合并和沿长度维度合并。我们发现,沿文本长度维度连接文本编码器的特征可以获得更好的性能。我们的假设是,通过沿文本长度维度连接,模型可以充分利用Transformer的全局注意力机制来聚焦于每个文本槽。这有助于更好地理解和整合T5和CLIP提供的不同维度的语义信息。
总结
本报告介绍了构建Hunyuan-DiT的整个流程,这是一个具有理解中文和英文能力的文本到图像模型。报告阐明了Hunyuan-DiT的模型设计、数据处理和评估协议。通过从不同方面的努力结合起来,Hunyuan-DiT在开源模型中实现了在中文到图像生成方面的最佳性能。希望Hunyuan-DiT能成为社区训练更好的文本到图像模型的有用参考。
原文链接: