Emu3 统一多模态输入与生成

Emu3 统一多模态输入与生成

BAAI刚刚开源了Emu3多模态大模型,仅使用单个transformer,使用下一个token预测的方法从0进行训练!通过将图像、文本和视频tokenize到一个统一的离散的空间中,直接通过预测下一个token实现文本、图像和视频生成,Ho......
admigg 11-15
593 665 371