多模态与伪多模态大模型

admigg

2024-11-15 01:14:06发布
关注私信

616 693 248

“透过现象看本质，才是最应该做的选择”

对大模型了解的人应该知道，大模型是因为openAI的GPT模型爆火的，当然大模型的发展也是经过多年的发展才有了今天的地步。

在之前的文章中也介绍过，大模型的全程是大规模预训练语言模型的简称，也就是说大模型刚开始是在语言处理领域大放异彩的。

因此，可以说大模型是深度学习，也就是神经网络模型与自然语言处理相结合而产生的一种技术。

而随着大模型在自然语言处理领域的爆发，一些技术人员开始把大模型应用到图片处理，视频处理等领域，后来慢慢就诞生了处理各种模态数据的模型。

到今天，多模态成为了主流。

多模态大模型

什么是多模态？

模态值得是数据类型，比如文本，图片，视频等；而多模态就是指能够同时处理文本，图片，视频等多种模态数据的模型。

简单来说，多模态大模型就像一个人一样，他既会写字认字，也会绘画欣赏画，他即能通过拍视频的方式表达自己；也能看懂别人视频所表达的思想。

而多模态大模型就是这样，它既能看懂别人的文字，也能看懂别人的视频，也可以把别人的视频用语言表达出来，这就是多模态大模型。

这种实现方式，需要解决很多技术难点，比如说文本和视频或图片内容等多种模态数据之间的融合，模态之间的数据差异问题，数据对齐与一致性问题等。

这种实现多模态大模型的方式，叫做真多模态大模型。

但实现多模态只有这种方式吗？

其实，还有另一种实现多模态的方式或者说方法；那就是在多个处理不同模态数据的大模型之上，构建一个虚拟的“多模态大模型”，我叫他伪多模态大模型。

简单来说就是真实的多模态大模型就相当于一个无所不能的人，天文地理，物理化学，前知五百年后晓五百世；而伪多模态大模型，就相当于给阿斗配一个顶级智囊团，虽然阿斗什么都不懂，但他可以问啊。

就比如说，用户输入一段文字，这时前置模块就可以识别出这是文本模块，那么它就可以问其它的大模型，你们谁能处理文本，然后文本模型就会说我我我。

而如果用户输入一段视频，那么前置模块就可以找一个视频处理的大模型，最后再通过后置的转化模块，把输出数据转化为用户需要的格式。

这就是伪多模态，很多初创企业干的就是这种产品，他们通过集成多种类型的模型，来实现对多种模态数据的处理。

当然，这种伪多模态模型虽然在外人看来都差不多，但我们要知道它们使用的是完全不同的技术；并且，伪多模态大模型虽然能够处理一些简单任务，但在复杂任务中可能就没有真正的多模态模型表现得好了。

很多东西如果不能透过表象看本质，就会导致很大的认知偏差；比如说，我们都以为语音处理的大模型，它是直接处理语音格式的数据，事实上是会有一个前置层，先把语音文件转化为文本格式，然后再让大模型处理。

等大模型处理完之后，再把文本格式的数据转换为语音数据输出，前者技术叫ASR，后者叫TTS。

原文链接：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#清言 #盘古 #人工智能 #通义千问 #ChatGPT #伪多模态 #4 #大模型 #混元 #悟道 #多模态 #AI #Bard #开源大模型 #文心一言 #AIGC应用 #孟子 #OpenAI #言犀 #GPT #LaMDA #Copilot #AIGC #Sora #云雀 #Agent #日日新 #紫东太初