文章链接:项目链接:
总结速览
解决的问题 :现有扩散模型在处理自定义用户指令时缺乏多样化数据,尤其是在低级任务中表现不足。此外,扩散过程的随机性导致难以保留生成图像的细节。
提出的方案 提出了PromptFix框架,通过构建大规模指令跟随数据集、引入高频引导采样方法以及设计辅助提示适配器来增强模型的指令执行能力。
应用的技术 :使用高频引导采样控制去噪过程,保持未处理区域的高频细节;利用视觉-语言模型(VLMs)加强文本提示,提高任务泛化能力。
达到的效果 :PromptFix在多种图像处理任务中表现优于现有方法,并在零样本盲修复和组合任务中展现出更强的能力,同时保持了与基准模型相当的推理效率。
数据整理
现有的带有指令标注的图像数据集主要用于促进图像编辑研究,涵盖了颜色迁移、对象替换、对象移除、背景更改和风格迁移等任务。然而,它们与低级应用的重叠有限。此外,现有模型在图像修复任务中的表现难以令人满意。本文的目标是构建一个专门针对低级任务的综合视觉指令跟随数据集。获得了约101万训练三元组实例。
配对图像收集 。最初从多个现有数据集中收集源图像,随后生成退化和修复后的图像,以创建大量的配对图像数据集。共收集了大约两百万个原始数据点,涵盖八个任务:图像修复、对象创建、图像去雾、图像上色、超分辨率、低光增强、雪去除和水印去除。对于测试集,为每个任务随机选择了300对图像。
方法
设表示退化的输入图像。PromptFix 模型旨在通过提示和扩散模型来增强图像。
由于 SDE 的显著特性,后向扩散过程通过 Fokker-Planck 动力学重新表述,以产生具有一致概率密度的确定性转移,从而形成概率流常微分方程(ODE):
基于 VLM 的辅助提示模块
考虑到低级图像处理专注于处理退化图像而非真实世界图像 ,采用集成 VLM 来为低级图像I估计辅助提示。该辅助提示包含语义标题和缺陷描述,以增强目标图像的语义清晰度,从而解决低级图像处理任务中固有的指令差距。
高频引导采样
在图像恢复和生成任务中有一个基本要求:处理后的图像必须在语义上保持高准确性。观察到,普通的 VAE 重构往往会丢失图像细节,例如文本渲染,这包含高频信息,如下图 5 所示。因此,提出高频引导采样,以平衡生成的质量和保真度。
实验
实验设置
基准和指标 。采用基于指令的一般模型,例如 InstructP2P、MGIE 和 InstructDiffusion 作为主要比较。MGIE 使用 VLM 引导的技术进行图像编辑,而 InstructDiffusion 处理与训练目标重叠的任务,包括水印去除和修补。此外,还评估了不支持指令输入的全能图像修复方法,如 AirNet 和 PromptIR,以及专门为特定子任务微调的图像修复专家模型。使用 PSNR、SSIM 和 LPIPS 等指标评估生成图像与真实图像的相似性。对于无参考图像质量评估,利用 ManIQA 指标。
定量和定性结果
下表 1 展示了通过 LPIPS 和 ManIQA 指标评估的图像修复和编辑技术的比较分析。专家模型 Diff-Plugin 在低光增强 (LPIPS/ManIQA: 0.227/0.453) 和去雪 (0.133/0.508) 中表现有限但显著。一般方法中,AirNet 在去雪和去雾等任务中展现出平衡能力,LPIPS/ManIQA 得分分别为 0.245/0.589 和 0.039/0.780。然而,基于指令的扩散方法揭示了更细致的图景,PromptFix 显得特别有希望。在着色任务中,它表现优异 (LPIPS/ManIQA: 0.233/0.489),在对象去除 (0.054/0.810) 和水印去除 (0.071/0.811) 中持续超越其他方法。InstructP2P 和 InstructDiff 在低光增强和去雾等特定任务中表现良好,但在整体多功能性上无法与 PromptFix 匹敌。尽管 MGIE 在某些领域有效,但缺乏 "PromptFix (Ours)" 所展现的一致性。这突显了 PromptFix 在多种图像处理任务中的鲁棒性和卓越表现,并表明 PromptFix 具有在该领域设定新基准的潜力,得益于先进的基于指令的扩散方法。
下图 3 展示了所有选择的基线模型之间的视觉比较。在着色任务中,PromptFix 生成的结果最具视觉准确性和生动性,与真实图像非常接近。在水印去除任务中,它有效地恢复了原始图像,而未引入伪影,超越了 MGIE 和其他方法。在去雪和低光增强中,PromptFix 实现了更清晰、更自然的输出,显著减少了噪声并增强了可见性。此外,在超分辨率方面,PromptFix 展现出卓越的清晰度和准确性,保留了细节,超越了所有比较方法。在去雾方面,尽管 PromptFix 的性能在视觉上与图像修复专家 PromptIR 和 AirNet 相当,但 PromptFix 超越了最近的基于Stable Diffusion的方法 Diff-Plugin,呈现出干净、清晰的外观,且与真实图像高度匹配。
消融研究
高频引导采样的有效性。引入高频引导采样(HGS)方法以平衡保真度和质量。为了验证 HGS 的有效性,我们进行了定性和定量实验。如下图 5 所示,在低光场景中,模型旨在增强输入图像的可见性(质量),同时保留其原始文本细节(保真度)。对于利用Stable Diffusion作为生成先验的基线方法,变分自编码器(VAE)强大的压缩能力也带来了空间信息损失的问题,如图 5 中的 InstructDiff、MGIE 和 Diff-Plugin 所示。这个问题与模型有效遵循指令的能力无关。通过变体 “Ours w/o HGS” 可以看出,我们的方法在增强低光图像方面显著优于三种基线,但仍然无法保留小规模的文本结构。通过引入 HGS,如 “Ours” 所示,所提出的框架提供了一个高保真度的解决方案,同时满足低光增强的指令。F(·) 和 S(·) 的使用提高了生成图像的质量,这在下表 4 中的定量结果得到了验证。
VLM 指导的盲修复 。利用 LLaVA 生成辅助提示,并将指令提示留空。这种方法使得用户可以输入图像,而无需提供修复指令。评估了模型在这种盲修复任务上的表现,包括低光增强、去雪和去雾。如下表 3 所示,我们的模型在性能上与四个基线模型相当,与真实图像的感知差异最小,且具有更优越的zero-shot 能力。
多任务处理
尽管PromptFix并未经过专门训练以同时处理同一图像中的多个低级任务,但它展现出了多任务处理的能力。我们构建了一个包含200张图像的验证数据集,每张图像包含3个恢复任务,如上色、水印去除、低光增强、去雪、去雾和超分辨率。我们将PromptFix与AirNet和PromptIR这两种通用图像恢复方法,以及以指令驱动的扩散方法InstructP2P和InstructDiff进行了基准测试。如下表2所示,PromptFix的表现超越了这些基线,达到了更优的图像质量、结构相似性,并且与真实图像的感知差异最小,体现在竞争力的PSNR、SSIM和LPIPS得分上,同时更高的ManIQA得分也表明其结果在视觉上令人愉悦且质量高。相反,虽然像InstructP2P和InstructDiff的方法在特定指标上表现良好,但它们未能匹配PromptFix的整体平衡性能。这些结果表明了PromptFix的鲁棒性和多样性。
不同类型的指令提示
通过与三种类型的提示进行消融比较来验证PromptFix对各种人类指令的泛化能力,如下表5所示:训练期间使用的指令,以及少于20个单词和40-70个单词的训练外人类指令。PromptFix在训练外指令下的性能略有下降,但变化可以忽略不计。这表明PromptFix对少于20个单词的指令具有鲁棒性,这通常对于低级处理任务来说是足够的。我们观察到在较长指令下的性能下降,可能是由于训练数据中指令长度的长尾效应。尽管低级处理任务通常不需要长指令,但通过用更长的指令增强数据集来解决这一问题可能是未来工作的一个方向。
结论
是一种新型的基于扩散的模型,以及一个大规模的视觉指令训练数据集,旨在促进基于指令的低级图像处理。PromptFix通过高频引导采样和基于视觉语言模型(VLM)的辅助提示模块,有效解决了空间信息丢失和退化适应相关的挑战。这些机制提高了模型在基于指令的图像处理范式中的性能。大量实验结果证明了PromptFix在生成准确且高质量图像方面的先进能力。除了在传统指标上的改进,还观察到PromptFix在多任务处理和低光增强、去雪和去雾等盲恢复任务中的有效性。
原文链接: