文章链接:代码链接:链接:链接:(chatgpt * 30, musiccaps * 30)
背景
近年来,基于扩散的文本到音乐(TTM)生成方法逐渐受到重视,提供了一种创新的方法,将文本描述合成音乐内容。要在这一生成过程中实现高准确性和多样性,必须依赖大量高质量的数据,包括高保真音频波形和详细的文本描述,但这些通常仅占现有数据集中的一小部分。在开源数据集中,低质量音乐波形、标签错误、弱标签和无标签数据等问题显著阻碍了音乐生成模型的发展。为了解决这些挑战,今天和大家分享一种全新的高质量音乐生成范式,该范式结合了质量感知训练策略,使生成模型能够在训练过程中辨别输入音乐波形的质量。利用音乐信号的独特特性,首先针对TTM任务调整并实现了一个掩码扩散Transformer(MDT)模型,展现出其在质量控制和音乐性增强方面的独特能力。此外,还通过字幕优化数据处理方法解决了TTM中低质量字幕的问题。实验结果表明,在MusicCaps和Song-Describer数据集上取得了当前最先进的(SOTA)性能。
当前音乐生成(音效生成)领域的问题为质量低,具体来说分为三个方面:
创新方法及思路
质量信息注入
解决: 引入质量感知训练策略 。采用主观数据集中的MOS分训练出的质量评分模型,在训练过程中注入(伪MOS分)音频质量信息。
两种注入方法:
结论 :质量感知策略允许了在推理阶段以 高质量文本和质量token进行引导 ,从而生成显著高于训练集平均质量的音频。
以类似 解耦的方式 在训练中感知音频的质量(类似TTS中分离出音色训练),从而更好地促进了模型的训练 (大幅降低FAD,KL,并提升IS,REL,CLAP等指标) 。
我们还发现,粗粒度文本控制和细粒度token控制 相结合 ,更有助于模型训练中解耦,感知,并控制更高质量音频的生成,从而解决训练数据集影响的问题
质量感知型 masked扩散Transformer
解决 :从音乐性建模角度,我们发现 U-ViT/DiT 类架构对频谱隐空间建模也具有图像上表达的scale ability,并能更好建模谐波,音色等方面(反应在主观评分)
优化 :
优化音乐标注描述
解决 :首次在音乐生成领域使用预训练标注模型(LP-Musiccaps)进行大规模标注 优化 :
实验
总体对比与,对比U-net架构和transformer based架构
对比overlap策略和patch size
质量感知消融
此图证明了相比于无质量感知,大幅提升了生成质量和客观指标。并且,MDT(我们的架构)比 U-Net 在文本质量控制感知上的独特优势(生成质量更高,总体客观指标更好)
左图展示了 token as control 的准确感知控制生成能力,生成的高质量数据(黄色区域)显著高于训练集MOS分。
右图展示了文本质量控制和token质量控制的结合效果与单纯token和文本控制的对比。
主观评测结果
各个人的评分下,均有优势。
结论与展望
本研究识别出大规模音频质量不均和文本标注未对齐所带来的挑战,这些挑战阻碍了基于扩散的文本到音乐(TTM)生成的发展。通过采用基于p-MOS的新型质量感知学习方法,以及以masked扩散Transformer作为扩散过程的主干,在音乐生成中实现了更高的生成质量和音乐性。
原文链接: