企业宣传,产品推广,广告招商,广告投放联系seowdb

多模态大模型最全综述导读

多模态大模型最新研究综述简单版。

不知道最近微软出的多模态大模型最全综述Multimodal Foundation Models: From Specialists to General-Purpose Assistants大家有没有看~

包含5大主题一共119页,内容又干又多,目前网上找到的中文解读干货内容都比较全比较长,很容易迷失其中,一直难以看完。

本期来给大家做一个这篇论文相对简单的导读;如果大家有想要着重了解部分或感兴趣的内容可以先针对性地看。

下面是一个快捷目录。

1. 章节分布

2. 具体内容解读

章节分布

论文从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:

这里瓦力画了一个比较简单的图,大致总结一下各个主题的内容,大家可以参考。

具体内容解读

具体的模型、算法大家都可以针对性地自己了解,这里先给大家总结一些比较关键的点:

1. 语言或视觉多模态的开发路线

上述四个类别中,第一类是任务特定模型,后面三类属于基础模型。

下面以语言为例,聊聊AI的演进趋势:

2. 多模态中经典的5个问题

论文中回答了经典的5个问题,也阐述了多模态基础模型旨在解决的三个代表性问题:视觉理解任务、视觉生成任务和具有语言理解和生成的通用界面。

Q1:如何学习视觉表示?

Q2:如何做视觉生成?

Q3:如何不基于大语言模型训练一个通用视觉模型?

Q4:如何训练多模态大语言模型

Q5:如何为大语言模型链接一个多模态专家?

下面是论文中各章节及经典的模型推荐,其中橙色的部分,也就是视觉理解主题部分回答了Q1;绿色的部分,视觉生成主题部分回答了Q2;蓝色的部分,回答了Q3~Q5。

下面我从文章摘取一些内容简单回答来上述5个问题,如果大家需要详细了解的话可以从上图中对应章节去研读:

Q1:如何学习视觉表示?

下图比较清晰的展现了现有的四种方法:

此外,论文中还列出了上述方法的代表模型。

Q2:如何做视觉生成?

现有方法的代表模型。

1) 具有代表性的文本到图像生成模型

2)经典的扩散模型架构

3)未来研究趋势:统一调优,实现人工对齐

具体又可以分为这三个方向:

Q3:如何不基于大语言模型训练一个通用视觉模型?

现有方法的代表模型。

1)从封闭集到开放集

通过引入对比语言-图像预训练方法来训练开放集模型,解决了传统封闭集模型的局限性。如图 4.2 (a) 所示,CLIP 不是学习从输入到标签的映射,而是使用数亿个图像-文本对学习对齐的视觉语义空间。

2)从特殊任务到通用

可分为I/O Unification 和Functionality Unification,也就是I/O统一和功能统一。

3)从静态到可提示

这里的研究主要是一些增强静态视觉模型的能力,目的是为了支持:(i) 多模态提示;(ii) 上下文提示。

Q4:如何训练多模态大语言模型?

这里文中举了两个例子:

1)LMM 使用图像-文本成对实例进行训练

大多数 LMM 都是在大量图像-文本对上训练的,其中每个训练样本都是一对。

2)使用交错图像文本序列实例训练的 LMM。

论文中以Flamingo为例, Flamingo 使用仅来自 Web 的互补大规模多模态数据的混合进行训练,而不使用任何用于机器学习目的的注释数据。训练完成后,Flamingo可以通过简单的few-shot learning 直接适应视觉任务,而无需任何额外的任务特定调整。

Q5:如何为大语言模型链接一个多模态专家?

这里以MM-ReAct为例,其系统范式由 Chat GPT 组成了多模态工具,用于多模态推理和动作。通过使用各种多模态工具增强纯语言的 ChatGPT,MM-REACT 支持多模态的输入和输出,包括文本、图像和视频。

再下面是MM-REAC涌现的多模态推理和动作功能。

那么论文的简单导读就是这样了,如果大家觉得论文过长文本看不进去还可以看论文中1.4节附上的视频,B站和youtube都有;虽然是英文的,但结合PPT整体看下来是比较容易理解的。

参考文献:

[2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants (arxiv.org)

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender