统一多模态理解和生成仅1.3B！Janus

admigg

2024-11-15 00:16:59发布
关注私信

369 333 516

Janus 是一个统一的多模态理解和生成的大型语言模型（MLLM），它将多模态理解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建，该模型训练时使用了大约5000亿个文本token的语料库。在多模态理解方面，它使用 SigLIP-L 作为视觉编码器，支持384 x 384像素的图像输入。在图像生成方面，Janus 使用了LlamaGen的tokenizer，并且具有16倍的下采样率。

Janus的训练过程是分阶段进行的，以确保模型在多模态理解和生成任务上都能达到高性能：

第一阶段：训练Adpater和图像Head

第二阶段：统一预训练

第三阶段：监督微调（SFT）

训练细节：

作为一个next token prediction的图像生成模型，生成效果相当不错：

同时作为一个多模态理解模型，仅1.3B且只有384的输入分辨率，效果也超出预期。比如带有文字的meme图的理解，甚至也还行：

可以看出，多模态大模型生成和理解，越卷越统一；模型尺寸也有着越卷越小的趋势。

原文链接：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#OpenAI #混元 #LaMDA #Copilot #人工智能 #文心一言 #大模型 #清言 #云雀 #日日新 #AIGC应用 #GPT #通义千问 #多模态 #盘古 #多模态大模型 #ChatGPT #孟子 #4 #言犀 #Sora #AI #Agent #Bard #AIGC #紫东太初 #悟道 #开源大模型

统一多模态理解和生成 仅1.3B！Janus

第一阶段：训练Adpater和图像Head

第二阶段：统一预训练

第三阶段：监督微调（SFT）

统一多模态理解和生成仅1.3B！Janus