1、sCM 新扩散模型
在今日凌晨,OpenAI 推出了创新的扩散模型方法 sCM,这一方法仅需两步骤即可生成高质量的图片和 3D 模型,实现了高达50倍的时钟速度提升,特别是在处理高分辨率任务时表现尤为出色。
举例来说,利用 sCM 训练的一个拥有15亿参数的模型,在单个A100 GPU上,无需进行任何推理优化,就能在 0.11 秒内完成内容的生成。
目前,在扩散模型中生成图片速度最快的是 Stability AI 开源的 SD 快速版本,它需要四步来生成高质量图片。而 sCM 在确保图像质量的同时,还将推理效率提高了一倍,并简化了连续时间一致性模型的理论公式,使得模型能够在更大的数据集上进行稳定训练和扩展。
sCM 的核心原理是建立在一致性模型的基础上,它通过直接将噪声转换为无噪声样本来生成数据。与传统扩散模型将数据生成视为从噪声到数据的渐进过程不同,一致性模型采取了一种更为直接的方式,可以在单步或几步之内从噪声状态直接跳转到数据状态。
sCM 采用了连续时间框架,这使得模型理论上能够在连续的时间线上进行操作,从而避免了离散时间模型中的离散化误差。在连续时间的一致性模型中,模型的参数化、扩散过程和训练目标都经过了重新定义,以适应连续时间的环境。
例如,模型的参数化不再依赖于离散的时间步,而是直接与时间本身相关。这种连续时间的参数化方法使得模型能够更精确地捕捉数据生成过程中的动态变化。
在网络架构上,sCM 引入了优化后的时间条件、自适应组归一化、新型激活函数和自适应权重,这些改进旨在提升模型的训练稳定性和生成质量。优化后的时间条件帮助模型更准确地感知时间变化,自适应组归一化则保持了训练过程中内部特征的稳定性,新型激活函数增强了模型的非线性表达能力,而自适应权重的使用允许模型根据训练数据的分布动态调整损失函数中的权重,减少了不同时间步长之间的损失方差。
为了验证 sCM的性能,研究人员在CIFAR-10、ImageNet 64×64和ImageNet 512×512等多个数据集上进行了全面评测。结果证实,sCM是目前最为高效的扩散生成方法。例如,在ImageNet 512×512数据集上,sCM模型的FID得分达到了1.88,且所需的计算资源更少,效率更高。
2、网友讨论
一些网友评论称,若将这种技术应用于视频领域,实时视频处理的时代可能很快就会到来。同时,Sora 的推理压力也将大幅减轻。
“很高兴再次看到 OpenAI 发布技术论文。”
如果 Sora 采用了这项技术,它的公测版本应该不远了吧?“
这种简化版的模型非常适用于那些需要快速得到结果但又不牺牲质量的应用场景!”
“这个模型看起来非常有潜力。"
”仅用两步就能生成内容,这无疑将再次颠覆游戏规则。"
“将这项技术应用于 Sora,我们期待的产品可能就要问世了。"
目前,OpenAI 已经公布了这项研究方法,值得一提的是,这是由两位华人研究者提出的。
论文链接:
原文链接: