是声音太真了 字节豆包语音合成成果Seed 耳朵没错

是声音太真了 字节豆包语音合成成果Seed 耳朵没错

SeedTTS是字节跳动豆包大模型团队近期发布的语音生成大模型成果,它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现,举例来说,将一段语音提供给SeedTTS,它就能按文本生成全......
admigg 11-15
741 689 729
ShareGPT4V作者团队又一力作!百万高质量视频

ShareGPT4V作者团队又一力作!百万高质量视频

继Sora官宣之后,多模态大模型在视频生成方面的应用简直就像井喷一样涌现出来,LUMA、Gen3Alpha等视频生成模型展现了极佳质量的艺术风格和视频场景的细节雕刻能力,文生视频、图生视频的新前沿不断被扩展令大家惊喜不已,抱有期待,最近,来......
admigg 11-15
435 100 873
影眸联合提出DressCode 从文本生成3D服装板片 上科大

影眸联合提出DressCode 从文本生成3D服装板片 上科大

3D生成是生成式人工智能和计算机图形学领域最引人注目的话题之一,符合影视、游戏标准的3D生成尤其受产业界关注,在生产流程中,一般品类的3D资产往往通过手工建模或者扫描的方式制作,但作为3D资产的一个重要类别,服装资产的往往来源于平面板片与物......
admigg 11-15
486 338 769
朴素 一文详解3D内容生成算法

朴素 一文详解3D内容生成算法

文章链接,https,arxiv.orgpdf2402.01166近年来,人工智能生成内容,AIGC,方面取得了显著进展,涉及多种输入形式,如文本、图像、视频、音频和3D内容,其中,3D内容是最接近真实世界3D环境的视觉形式,并蕴含着巨大的......
admigg 11-15
427 677 477
真香合成数据集已开源 上交港中文新框架超越Instant3D 5秒完成3D生成

真香合成数据集已开源 上交港中文新框架超越Instant3D 5秒完成3D生成

使用大模型合成的数据,就能显著提升3D生成能力,来自上海交大、香港中文大学等团队还真做到了,他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型,这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模......
admigg 11-15
480 451 636
CVPR`24

CVPR`24

文章链接,https,arxiv.orgpdf2406.09402项目地址,https,immortalco.github.ioInstruct4Dto4D今天和大家一起学习的是Instruct4Dto4D,可以通过2D扩散模型实现4D感知......
admigg 11-15
707 509 837
贾佳亚团队正挑战Scaling 新一代轻量级ControlNeXt火了 视频生成控制提升几十倍 Law

贾佳亚团队正挑战Scaling 新一代轻量级ControlNeXt火了 视频生成控制提升几十倍 Law

最近,又一款国产AI神器吸引了众网友和圈内研究人员的关注!它就是全新的图像和视频生成控制工具&amp,mdash,&amp,mdash,ControlNeXt,由思谋科技创始人、港科大讲座教授贾佳亚团队开发,X平台上知名AI......
admigg 11-15
864 291 288
条件生成和理解 统一多模态大模型!PUMA 着色 修复 编辑 多粒度策略笑傲生成

条件生成和理解 统一多模态大模型!PUMA 着色 修复 编辑 多粒度策略笑傲生成

文章链接,https,arxiv.orgpdf2410.13861项目链接,https,github.comrongyaofangPUMA亮点直击多粒度特征处理,PUMA能够同时处理粗粒度和细粒度的视觉特征,适应不同任务的需求,如文本到图像......
admigg 11-14
617 685 237
效果超越Gen 10倍速度突破质量瓶颈

效果超越Gen 10倍速度突破质量瓶颈

论文链接,https,arxiv.orgpdf2405.18750项目链接,https,t2vturbo.github.io基于扩散的文本到视频,T2V,模型取得了显著的成功,但仍然受到迭代采样过程速度缓慢的影响,为了解决这一挑战,一些一致......
admigg 11-14
657 455 510
生成任意3D和4D场景!GenXD 通用3D

生成任意3D和4D场景!GenXD 通用3D

文章链接,https,arxiv.orgpdf2411.02319项目链接,https,genxd.github.io亮点直击设计了一个数据整理流程,从视频中获取包含可移动物体的高质量4D数据,并为30,000个视频标注了相机姿态,这个大规......
admigg 11-14
242 447 848