0、背景落地
在生成式人工智能(GenAI)领域,检索增强生成(RAG)作为一种策略脱颖而出,它通过集成外部数据来扩充像 ChatGPT 这样的大型语言模型(LLM)的现有知识库。
RAG 系统核心涉及三种关键的人工智能模型组件:嵌入(Embedding)模型负责将信息转化为数学向量,重排名(Reranker)模型则用于优化搜索结果,而强大的基础语言模型确保了丰富的语境理解和生成。
本篇文章旨在指导您依据数据特性及目标领域,比如:金融专业,来挑选最合适的嵌入模型,从而最大化 RAG 系统的效能与准确性。
1、文本数据:MTEB 排行榜
HuggingFace 推出的 MTEB leaderboard 是一个综合性的文本嵌入模型比较平台,让您可以一览各模型的综合性能表现。
为了满足向量搜索的需求,建议优先关注“Retrieval Average”这一列,并按降序排列,以识别在检索任务中表现最优的模型。在此基础上,寻找那些内存占用小、效率高的佼佼者。
在筛选理想模型时,您不仅可根据检索性能排序,还能够依据特定条件进一步筛选:
值得注意的是,MTEB上的排名可能因新公开的训练数据而有所偏差,某些模型的评分可能存在虚高现象。因此,参考 HuggingFace 的官方博客,学习如何辨别模型排名的真实可靠性显得尤为重要。在访问每个模型的“模型卡片”页面时,以下几个步骤至关重要:
基于上述考量,我建议使用 Snowflake 新推出的“snowflake-arctic-embed-1”模型。该模型不仅在排名上表现抢眼,而且以其较小的体积适合在有限资源的设备上运行,此外,模型卡片提供的博客和论文链接也增加了其透明度和可信度。
2、图像数据:ResNet50
如果您希望查找与某张图片风格或内容相似的其他图片,比如:搜寻更多关于苏格兰折耳猫的图像资料,一种方法是上传一张该品种猫的照片,并利用图像搜索引擎去发掘类似图片。
ResNet50 作为一种广泛采纳的卷积神经网络(CNN)模型,自2年微软基于 ImageNet 数据集的训练成果以来,便成为了图像识别领域的基石之一。
类似地,在面对视频搜索需求时,ResNet50 能够发挥作用,通过将视频分解成一系列静态帧,对每一帧应用模型以生成对应的嵌入向量。随后,基于这些向量进行相似性比对,系统能够甄选出与查询视频最为接近的视频内容,从而为用户提供高度匹配的搜索结果。
3、音频数据:PANNs
就如同图像搜索一样,您也能够依据提供的音频片段去探寻类似的音频内容。
PANNs(预训练音频神经网络)作为一种主流的音频检索 Embedding 模型,其优势在于它基于庞大的音频资料库进行了预先训练,对此在音频分类与标签分配等任务上展现出卓越的能力。
4、多模态图像与文本数据:SigLIP 或 Unum
近年来,一系列旨在对文本、图像、音频及视频等多种非结构化数据进行综合训练的 Embedding 模型应运而生。这些创新模型能够在统一的向量空间框架下,有效把握并表达不同形态的非结构数据所蕴含的深层语义信息。
多模态 Embedding 技术的发展,使得跨领域的应用如文本导向的图像检索、图像内容的自动生成描述,乃至图像间的相似性搜索成为可能,极大地拓宽了人工智能的应用范畴。
2021年,OpenAI 发布的 CLIP 作为 Embedding模型的典范,开辟了新领域,尽管其定制化微调的需求增加了使用的复杂度。这一挑战随后在2024年迎来了转机,谷歌推出了SigLIP(Sigmoidal-CLIP),该模型凭借在 zero-shot prompt任务上的出色表现,显著降低了部署难度,提升了用户体验。
与此同时,轻量级的小型LLM(语言模型)日益受到青睐。它们的吸引力在于能够摆脱对高端云计算资源的依赖,轻松实现在个人笔记本上的运行。这些“小而美”的模型,因内存占用低、响应速度快以及处理效率高的特点,正逐步改变着 AI 应用的格局。Unum 等平台更是提供了集成多模态功能的小型 Embedding 模型,进一步推动了 AI 技术的普及与应用便捷性。
5、多模态文本、音频、视频数据
多模态的文本-音频 RAG(检索增强的生成)系统广泛采纳了多模态生成型 LLMs。此过程启始于音频信息的文本化转换,创造音频-文本配对,继而将文本内容编码为 Embedding 形式的向量,以便利用 RAG 机制进行常规的文本查询。最终阶段涉及将检索到的文本逆向关联回相应的音频片段。
OpenAI 的 Whisper 技术在这方面起到了桥接作用,它能够实现语音到文本的高效转写。相反地,OpenAI 还开发了 Text-to-Speech(TTS)模型,完成了从文本到语音的逆向转换,丰富了多模态交互的闭环。
至于多模态文本-视频的 RAG 应用,则采取了类似的策略,先将复杂的视频内容简化为可处理的文本描述,经 Embedding 转化后执行文本查询,最后输出相关的视频片段作为检索成果。
OpenAI 的创新工具 Sora,则在文本到视频的生成领域展现了非凡能力,与 Dall-E 在图像生成领域的成就相似,Sora仅需用户输入文本提示,即可借助强大的 LLM 生成对应的视频内容。Sora的灵活性不仅限于文本,还能基于静态图像或现有视频进行视频的衍生创作,进一步拓展了多模态内容生成的边界。
Milvus目前已经集成了主流的Embedding模型,体验链接:
原文链接: