数据才是AIGC的王道！UltraEdit 基于指令的细粒度图像编辑数据集万样本

admigg

2024-11-15 00:12:54发布
关注私信

676 228 291

一、概述

UltraEdit 是一种大规模的、自动生成的数据集，专门用于基于指令的图像编辑。该数据集包含了约万个编辑样本，覆盖了750,000个独特的指令，涵盖了9种以上的编辑类型。UltraEdit 的核心优势在于其利用大型语言模型（LLMs）的创造力和人类评估者提供的上下文编辑示例，提供了更广泛的编辑指令；其数据源基于真实图像，包括照片和艺术作品，这比仅由文本到图像模型生成的数据集提供了更大的多样性并减少了偏见；此外，它还支持基于区域的编辑，并增强了高质量的自动生成区域注释。

项目地址：代码地址：论文地址：

效果：

代码中也给出了通过UltraEdit训练集训练的SD3的模型，并且提供了一个gradio的界面，我部署测试了下这个模型，整体来说效果还过得去，当然这个模型不是重点。

二、原理

核心点：

UltraEdit架构：

高质量图像生成的评估和筛选：

个人认为数据集的质量评估在UltraEdit数据集的构建过程中扮演着最关键的角色，确保了生成的图像编辑样本符合高标准的质量和准确性。为了保证数据集的质量，UltraEdit数据集做了如下工作：

1、自动化质量评估指标

2、生成过程的迭代与筛选

3、编辑区域的准确性

三、效果

数据集的对比

定性评估

四、小结

文章主要目的是构建精细化编辑的数据集，以下是主要关键点：

个人认为，这篇文章很有价值，因为数据才是AIGC最基础最需要做的工作，但是靠人工来整理收集还是效率太低了，结合大模型与文生图模型来做一部分数据整理的工作简直不要太爽，但是如何保证生图的质量非常关键，一是生图模型有较好的效果，二是数据质量评估体系的建立是否完善。

原文链接:

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Bard #孟子 #OpenAI #开源大模型 #AIGC #人工智能 #通义千问 #Agent #日日新 #混元 #盘古 #GPT #AI #Sora #数据 #清言 #文心一言 #AIGC应用 #ChatGPT #多模态 #LaMDA #悟道 #Copilot #言犀 #紫东太初 #4 #云雀 #大模型

数据才是AIGC的王道！UltraEdit 基于指令的细粒度图像编辑数据集 万样本