谷歌重磅发布CAT3D 一分钟搞定任意数量视图到3D场景重建

谷歌重磅发布CAT3D 一分钟搞定任意数量视图到3D场景重建

论文链接,https,arxiv.orgpdf2405.10314项目链接,https,cat3d.github.io3D重建的进步使得高质量的3D捕捉成为可能,但需要用户收集数百到数千张图像来创建一个3D场景,本文提出了CAT3D,一种通......
admigg 11-15
394 235 740
已开源 曾爆火的 InstantID又有了新玩法 风格化图像生成

已开源 曾爆火的 InstantID又有了新玩法 风格化图像生成

风格化图像生成,也常称为风格迁移,其目标是生成与参考图像风格一致的图像,此前基于diffusion的方法,比如LoRA,通常需要批量的同风格数据进行训练,无法迁移到新的风格中,或者基于inversion,如StyleAlign,,通过将风格......
admigg 11-15
384 184 545
视觉定位 图像生成 编辑 入门必读!多模态大语言模型的演变全回顾! 理解

视觉定位 图像生成 编辑 入门必读!多模态大语言模型的演变全回顾! 理解

文章链接,https,arxiv.orgabs2402.12451连接文本和视觉模态在生成式AI中起着至关重要的作用,受到大语言模型,本文简称LLM,成功的启发,人们正在致力于开发多模态大语言模型,MLLMs,这些模型可以无缝地集成视觉和文......
admigg 11-15
188 237 869
具有空间意识的文本 谷歌&amp Mistral AI发布TIPS

具有空间意识的文本 谷歌&amp Mistral AI发布TIPS

文章链接,https,arxiv.orgpdf2410.16512亮点直击通用图像表示模型,TIPS结合图像文本和自监督学习的优势,适用于密集和全局预测任务,实现了广泛的下游应用,增强的文本监督信号,利用合成生成的图像描述标签,提升了模型对......
admigg 11-14
741 583 290
首次超越扩散模型和非自回归Transformer模型!字节开源RAR 自回归生成最新SOTA!

首次超越扩散模型和非自回归Transformer模型!字节开源RAR 自回归生成最新SOTA!

文章链接,https,arxiv.orgpdf2411.00776项目链接,https,yucornetto.github.ioprojectsrar.html代码&amp,amp,模型链接,https,github.combyte......
admigg 11-14
226 595 860
微软 罗切斯特大学&amp 图像编辑多任务一网打尽!PromptFix 大规模视觉指令数据集 新型扩散模型&amp

微软 罗切斯特大学&amp 图像编辑多任务一网打尽!PromptFix 大规模视觉指令数据集 新型扩散模型&amp

文章链接,https,arxiv.orgpdf2405.16785项目链接,https,www.yongshengyu.comPromptFixPage亮点直击提出了一个为七个图像处理任务量身定制的综合数据集,该数据集包含约101万对多样化......
admigg 11-14
722 561 835
​无需昂贵标注!大幅提升SDXL和SD3

​无需昂贵标注!大幅提升SDXL和SD3

文章链接,https,arxiv.orgpdf2410.18013亮点直击合成标注偏好数据集,SynPic,从不同的T2I模型生成图像,并通过多个预训练的奖励模型对其进行标注,这些模型可以估计人类偏好,因此,数据收集过程中无需人工标注,使得......
admigg 11-14
745 429 732
让移动成像技术飞跃 AI手机迎来重大技术进展!Meissonic ​颜水成团队新作

让移动成像技术飞跃 AI手机迎来重大技术进展!Meissonic ​颜水成团队新作

文章链接,https,arxiv.orgpdf2410.08261模型链接,https,huggingface.coMeissonFlowMeissonic在线Demo链接,https,huggingface.cospacesMeisson......
admigg 11-14
964 243 669
自回归可以打败扩散模型吗 在图像生成领域

自回归可以打败扩散模型吗 在图像生成领域

图像生成领域,有这么几种方法,FlowBased、GANBased、VAE,PixelCNN系列、扩散模型自回归,更早期的是基于自编码器的图像生成,各种AutoEncoder模型,以及影响很大的变分自编码器dVAE,后面又有FlowBase......
admigg 11-14
876 331 780