大模型RAG系统的4层境界！微软新综述

admigg

2024-11-15 01:17:41发布
关注私信

148 604 436

今天分享这篇很干的文章！通过对RAG系统的用户Query进行难度区分，进而可以将系统划分为4个等级。

Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External>

使用外部数据增强的大型语言模型 ( LLMs ) 在完成现实世界任务方面表现出了卓越的能力。外部数据不仅增强了模型的特定领域专业知识和时间相关性，而且还减少了幻觉的发生率，从而增强了输出的可控性和可解释性。将外部数据集成到LLMs中的技术，例如检索增强生成（RAG）和微调，正在获得越来越多的关注和广泛应用。尽管如此，在各个专业领域有效部署数据增强LLMs仍面临着巨大的挑战。这些挑战涵盖了广泛的问题，从检索相关数据和准确解释用户意图到充分利用LLMs的推理能力来完成复杂的任务。我们相信，对于数据增强LLM应用程序来说，没有一种万能的解决方案。在实践中，效果不佳通常是由于未能正确识别任务的核心焦点，或者因为该任务本质上需要混合多种功能，必须将这些功能分解以获得更好的解决方案。在本次调查中，我们提出了一种 RAG 任务分类方法，根据所需的外部数据类型和任务的主要关注点将用户查询分为四个级别：显式事实查询、隐式事实查询、可解释的基本原理查询和隐藏的基本原理查询。我们定义这些级别的查询，提供相关数据集，并总结关键挑战和应对这些挑战的最有效技术。最后，我们讨论了将外部数据集成到LLMs中的三种主要形式：上下文、小模型和微调，强调了它们各自的优势、局限性以及它们适合解决的问题类型。本文旨在帮助读者深入理解和分解构建LLM应用程序的数据需求和关键瓶颈，为不同的挑战提供解决方案，并作为系统开发此类应用程序的指南。

LLMs在各个专业领域较容易遇到一些问题，如模型幻觉、与特定领域知识的不一致等。所以整合特定领域的数据对于满足特定行业需求是非常重要的。通过RAG和微调等技术，基于RAG的LLM应用在多个方面显示出比仅基于通用LLM的应用的优势。

通常，基于RAG的LLM应用可以表述为一个映射过程，即基于给定数据D，将用户输入（查询Q）映射到预期响应（答案A）。

根据与外部数据D的交互程度和所需的认知处理水平，我们可以将查询分为不同层次。

上述文字对应了下图

L1 显式事实查询

挑战：

解决方案：（介绍了非常多的高级RAG技巧）

L2 隐式事实查询

挑战：

解决方案：

剩下2种不做更多介绍了，有点扯远了，一张图表示如下：

本文转载自，作者：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Agent #GPT #清言 #开源大模型 #AIGC应用 #多模态 #混元 #RAG #LaMDA #通义千问 #AI #文心一言 #悟道 #Bard #系统 #紫东太初 #Sora #盘古 #孟子 #大模型 #AIGC #日日新 #模型 #言犀 #ChatGPT #4 #云雀 #Copilot #人工智能 #OpenAI

大模型RAG系统的4层境界！ 微软新综述

L1 显式事实查询

L2 隐式事实查询

大模型RAG系统的4层境界！微软新综述