提示词压缩 RAG 09 技术综述 Advanced

admigg

2024-11-15 01:30:27发布
关注私信

424 293 228

作者 | Florian June

编译 | 岳扬

RAG 方法可能会面临两大挑战：

为了解决上述问题，LLM 的提示词压缩技术（Prompt compression）应运而生。从本质上讲，其目的是精炼提示词中的关键信息，使得每个输入的词元（input tokens）都承载更多价值，从而提升模型效率并还能控制成本。这一理念在图 1 的右下角进行了直观展示。

图 1：RAG 架构中的提示词压缩技术（见图右下角）。如紫色虚线标记的部分所示，某些压缩方法能够直接作用于已检索的上下文信息。此图由作者绘制。

如图 1 中紫色虚线标记的部分所示，部分压缩方法可以直接应用于从大语言模型中检索出的上下文信息。

总的来说，提示词压缩方法可以分为四大类：

鉴于第四类方法最初是为了像 ViT 或 BERT 这样的较小模型而提出的，本文将重点介绍前三类方法中代表性算法的原理。

01 Selective Context

1.1 作者的领悟见解

图 2 表明，大语言模型（LLM）即使在缺乏完整上下文或对话历史的情况下，也能对用户的询问做出回应。即便某些相关细节被省略，大语言模型（LLM）依旧能给出用户期望的回答。这或许是因为大语言模型（LLM）能够从上下文信息和预训练阶段积累的知识中推断出缺失的信息。

由此看来，我们可以通过筛选掉非关键信息来优化上下文长度（context length），而不会影响其整体性能。这就是 Selective Context 方法的关键所在。

Selective Context 策略采用小型语言模型（SLM），来计算给定上下文中各个词汇单元（比如句子、短语或词语）的自信息值。然后，基于这些自信息值（self-information）进一步评估各单元的信息含量。通过仅保留自信息值较高的内容，Selective Context 为大语言模型（LLM）提供了更为简洁、高效的 context representation （译者注：经过数学化或模型化文本或对话后的机器可处理的上下文信息）。这一做法不会对其在各种任务中的表现造成负面影响。

1.2 Self-Information 自信息

Selective Context 运用自信息（self-information）来衡量内容的价值。

自信息，又称为惊喜度（surprisal）或信息含量（information content），是信息理论中的核心概念之一。它用来量化某个事件所传达的信息量的大小。具体来说，它是 token 出现概率的负对数形式：

这里，

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#4 #清言 #通义千问 #混元 #紫东太初 #AI #LaMDA #AIGC #白海科技 #盘古 #LLMs #开源大模型 #ChatGPT #RAG #悟道 #大模型 #孟子 #云雀 #言犀 #Sora #AIGC应用 #人工智能 #Bard #日日新 #Copilot #GPT #文心一言 #多模态 #OpenAI #Agent