Gemini技术报告解读从Google多模态大模型看后续大模型应该具备哪些能力

admigg

2024-11-14 23:10:48发布
关注私信

398 158 515

大家好，我是HxShine。

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

本文对Gemini报告进行分析，总的来说Gemini模型在图像、音频、视频和文本理解方面表现出卓越的能力。其包括 Ultra、Pro 和 Nano 尺寸，能够适用于从复杂推理任务到设备内存受限用例的各种应用。

不像OpenAI接入多模态能力需要利用多个不同的模型，Google直接在预训练阶段直接接受多模态的输入是Gemini的特点之一，它能够直接处理多模态的数据，并且各项指标都还不错。另外可以看出具备图文理解等能力后，再结合大模型的对话能力，能够带来更惊艳的效果体验。

一、概述

Title：Gemini: A Family of Highly Capable Multimodal Models

论文地址：

1Motivation

发布Google的能与GPT4竞争的大模型，同时兼具多模态能力，包括文字、图像、视频、音频识别与理解能力。

1）Gemini模型支持4种格式输入，2种格式输出

特点：同时支持text文本，image图像，video视频和audio音频输入，支持文本和图片的输出。可以直接处理音频文件，不需要将音频转为文字等。

猜测的训练方法（张俊林：）：

2）Gemini模型有多个版本，最小有1.8B

特点：其中Nano首先从大模型蒸馏，然后4bit量化。Gemini Nano包含两个版本：1.8B面向低端手机，3.25B面向高端手机。

3 Conclusion

1）文本理解：Ultra性能超过了GPT4

2）图像理解：zero-shot效果超过很多微调后的模型

3）视频理解：超过之前的few-shot SoTA模型

4）不同版Genmini模型的性能

Nano2模型很多超过了Pro版本的50%，部分达到90的水平，效果还不错。

5）多语种翻译：性能超过GPT4

翻译能力也是比GPT-4好，WMT23指标中4个有3个超过GPT4的表现。

6）图像理解数据集：MMMU数据集表现

二、详细内容

1 多模态推理能力：识别手写答案，对物理问题进行解答

特点：识别书写结果，这个和OpenAI之前演示的根据草图写前端代码是一样的，不过识别的准确率是存疑的。

2 多模态推理能力：重新组织子图顺序

解决此任务需要模型具备以下能力：

3 图像生成能力：多模态理解+图像生成

要具备上面的功能需要以下能力：

4 语音理解能力：具备语音识别和语音翻译能力

对比的是OpenAI的Whisper，看着Gemini就是把多个SoTA模型包装起来了。

5 多模态理解：支持图片+音频输入

这个gptv+加个语音转文字的模型可以做，这里的特点可能是直接用一个模型就可以解决？

三、多模态能力展示

1 几何推理能力：求平行四边形的高

2 视觉多模态推理能力：根据图片确定地点

3 多语言常识推理：识别中文关系图

4 视频理解能力：分析视频中的人如何提升足球技术

四、总结

本文转载自，作者：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Copilot #孟子 #混元 #Gemini #盘古 #LaMDA #Agent #ChatGPT #言犀 #AIGC #云雀 #AI #大模型 #清言 #多模态 #Sora #AIGC应用 #GPT #文心一言 #技术 #OpenAI #通义千问 #人工智能 #Bard #4 #紫东太初 #日日新 #开源大模型 #悟道

Gemini技术报告解读 从Google多模态大模型看后续大模型应该具备哪些能力