大家好,我是HxShine。
前段时间Google推出Gemini多模态大模型,展示了不凡的对话能力和多模态能力,其表现究竟如何呢?
本文对Gemini报告进行分析,总的来说Gemini模型在图像、音频、视频和文本理解方面表现出卓越的能力。其包括 Ultra、Pro 和 Nano 尺寸,能够适用于从复杂推理任务到设备内存受限用例的各种应用。
不像OpenAI接入多模态能力需要利用多个不同的模型,Google直接在预训练阶段直接接受多模态的输入是Gemini的特点之一,它能够直接处理多模态的数据,并且各项指标都还不错。另外可以看出具备图文理解等能力后,再结合大模型的对话能力,能够带来更惊艳的效果体验。
一、概述
Title:Gemini: A Family of Highly Capable Multimodal Models
论文地址:
1Motivation
发布Google的能与GPT4竞争的大模型,同时兼具多模态能力,包括文字、图像、视频、音频识别与理解能力。
1)Gemini模型支持4种格式输入,2种格式输出
特点:同时支持text文本,image图像,video视频和audio音频输入,支持文本和图片的输出。可以直接处理音频文件,不需要将音频转为文字等。
猜测的训练方法(张俊林:):
2)Gemini模型有多个版本,最小有1.8B
特点:其中Nano首先从大模型蒸馏,然后4bit量化。Gemini Nano包含两个版本:1.8B面向低端手机,3.25B面向高端手机。
3 Conclusion
1)文本理解:Ultra性能超过了GPT4
2)图像理解:zero-shot效果超过很多微调后的模型
3)视频理解:超过之前的few-shot SoTA模型
4)不同版Genmini模型的性能
Nano2模型很多超过了Pro版本的50%,部分达到90的水平,效果还不错。
5)多语种翻译:性能超过GPT4
翻译能力也是比GPT-4好,WMT23指标中4个有3个超过GPT4的表现。
6)图像理解数据集:MMMU数据集表现
二、详细内容
1 多模态推理能力:识别手写答案,对物理问题进行解答
特点:识别书写结果,这个和OpenAI之前演示的根据草图写前端代码是一样的,不过识别的准确率是存疑的。
2 多模态推理能力:重新组织子图顺序
解决此任务需要模型具备以下能力:
3 图像生成能力:多模态理解+图像生成
要具备上面的功能需要以下能力:
4 语音理解能力:具备语音识别和语音翻译能力
对比的是OpenAI的Whisper,看着Gemini就是把多个SoTA模型包装起来了。
5 多模态理解:支持图片+音频输入
这个gptv+加个语音转文字的模型可以做,这里的特点可能是直接用一个模型就可以解决?
三、多模态能力展示
1 几何推理能力:求平行四边形的高
2 视觉多模态推理能力:根据图片确定地点
3 多语言常识推理:识别中文关系图
4 视频理解能力:分析视频中的人如何提升足球技术
四、总结
本文转载自,作者: