OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型 Sora之后

admigg

2024-11-14 23:43:53发布
关注私信

559 621 309

过去几年来，扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务：视频生成。近日，OpenAI 安全系统（Safety Systems）负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。

机器之心对这篇博客进行了不改变原意的编译、整理，以下是博客原文：

视频生成任务本身是图像合成的超集，因为图像就是单帧视频。视频合成的难度要大得多，原因是：

1. 视频合成还需要不同帧之间保持时间一致性，很自然，这需要将更多世界知识编码到模型之中。

2. 相比于文本或图像，收集大量高质量、高维度的视频数据要更为困难，更罔论配对的文本 - 视频数据了。

如果你想了解扩散模型在图像生成方面的应用，可参读本文作者 Lilian Weng 之前发布的博文《What are Diffusion Models?》链接：

从头建模视频生成

首先，我们先来看看如何从头设计和训练扩散视频模型，也就是说不使用已经预训练好的图像生成器。

参数化和采样

这里使用的变量定义与之前那篇文章稍有不同，但数学形式是一致的。令

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#ChatGPT #Copilot #开源大模型 #视频生成 #人工智能 #混元 #云雀 #清言 #LaMDA #文心一言 #多模态 #大模型 #紫东太初 #AIGC #Agent #AIGC应用 #孟子 #盘古 #言犀 #Bard #OpenAI #日日新 #4 #悟道 #扩散模型 #GPT #Sora #AI #通义千问