FlashRAG是一个用于复制和开发检索增强生成(RAG)研究的Python工具包。它包括32个预处理的基准RAG数据集、13种最先进的RAG算法,5大RAG组件,包括检索器、重排器、生成器、精炼器、评测器。借助FlashRAG和提供的资源,可以轻松地复制RAG领域的现有SOTA(最先进)工作,或者实现自定义的RAG流程和组件,比LangChain和LlamaIndex轻量且易操作。
FlashRAG概览
12种RAG技术在三个数据集上进行的性能评估。 优化组件表示该方法主要优化的组件,而流程表示对整个RAG过程的优化。带有∗标记的方法表示使用了经过训练的生成器。
在不同检索文档数量和检索器数量下的标准RAG过程的结果。 左图:使用三种不同检索器,检索不同数量文档,在六个数据集上的平均结果。右图:使用E5作为检索器,在六个数据集上的单独结果。
32个数据集总结。 FlashRAG目前包含了不同任务的多种数据集。每个数据集的样本大小以及答案的知识来源被列出作为参考。"-"表示知识来源是常识。星号(∗)表示这个数据集的任务已经被修改以适应RAG场景。
A Modular Toolkit for Efficient Retrieval-Augmented Generation Research
© 版权声明