小模型 VS 大模型
首先,我们思考一个问题,为什么qwen2基本上是当下最受欢迎的开源模型,说实话,相比于deepseek、llama、minicpm这些诚意满满的技术报告,qwen2的技术报告稍显一些&,ldquo,小家子气&,r......
具有空间意识的文本 谷歌& Mistral AI发布TIPS
文章链接,https,arxiv.orgpdf2410.16512亮点直击通用图像表示模型,TIPS结合图像文本和自监督学习的优势,适用于密集和全局预测任务,实现了广泛的下游应用,增强的文本监督信号,利用合成生成的图像描述标签,提升了模型对......
2024年大模型LLM还有哪些可研究的方向 听听大佬怎么说
2024年大模型LLM还有哪些可研究的方向,前言纯属brainstorm,欢迎大家一起探讨,想到哪里说到哪里,有遗漏的点欢迎大家在评论区中指出,个人认为现在LLM能做的点还很多,这个行业距离饱和还有一段距离,这里通过&,ldq......
首次超越扩散模型和非自回归Transformer模型!字节开源RAR 自回归生成最新SOTA!
文章链接,https,arxiv.orgpdf2411.00776项目链接,https,yucornetto.github.ioprojectsrar.html代码&,amp,模型链接,https,github.combyte......
定制化视频生成新模范!零样本主体驱动 精确运动控制!复旦& 阿里等发布DreamVideo
文章链接,https,arxiv.orgpdf2410.13830项目链接,https,dreamvideo2.github.io亮点直击DreamVideo2,首个无需微调,同时支持主体定制和运动控制的零样本视频定制框架,能够通过设计的参......
首个离散扩散模型精确反演方法! 灵活精确可控编辑!Dice
文章链接,https,arxiv.orgpdf2410.08207项目链接,https,hexiaoxiaocs.github.ioDICE亮点直击引入了DICE,一种用于离散扩散模型,包括多项扩散和mask生成模型,的反演算法,通过记录并......
微软 罗切斯特大学& 图像编辑多任务一网打尽!PromptFix 大规模视觉指令数据集 新型扩散模型&
文章链接,https,arxiv.orgpdf2405.16785项目链接,https,www.yongshengyu.comPromptFixPage亮点直击提出了一个为七个图像处理任务量身定制的综合数据集,该数据集包含约101万对多样化......
条件生成和理解 统一多模态大模型!PUMA 着色 修复 编辑 多粒度策略笑傲生成
文章链接,https,arxiv.orgpdf2410.13861项目链接,https,github.comrongyaofangPUMA亮点直击多粒度特征处理,PUMA能够同时处理粗粒度和细粒度的视觉特征,适应不同任务的需求,如文本到图像......
无需昂贵标注!大幅提升SDXL和SD3
文章链接,https,arxiv.orgpdf2410.18013亮点直击合成标注偏好数据集,SynPic,从不同的T2I模型生成图像,并通过多个预训练的奖励模型对其进行标注,这些模型可以估计人类偏好,因此,数据收集过程中无需人工标注,使得......
港理工& AI联合发布一致且高效的3D场景编辑方法 Stability OPPO&
文章链接,https,arxiv.orgpdf2406.17396项目链接,https,lslrh.github.iosyncnoise.github.io一句话亮点直击SyncNoise能够实现一致且高效的3D编辑,符合文本指令并保留编辑......