论文题目:
ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models
论文地址:
代码地址:
为了使 LLM 能够支持更复杂和多样化的应用,越来越多的研究致力于扩展 LLM 能够处理的上下文窗口。为了评估这些 long context LLM 支持长上下文能力,目前英文领域有几个数据集被提出(如 LongBench, L-Eval, LooGLE)。
然而,在中文领域,对于 long context LLM 能力评估的研究还有些滞后。目前只有一个双语基准 LongBench 可用,中文部分仅有平均长度约 13K 个字符的 1000 个测试实例。基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估 LLM 在中文领域的长文本上下文处理能力。
论文提出了 CLongEval,一个包含了 7 种 NLP 任务、覆盖 4 个能力维度的中文长文本能力测试集。以确保对模型能力的综合评估,作者首先对 LLM 处理长文本所需的关键能力进行了拆解。
如下图所示的框架,基于于人类自身解决问题的范式,作者将 LLM 在解决长上下文任务时所用的基础能力分解为:1)在 部分上下文 (Partial Context)或者 全部上下文 (Full Context)中识别和获取关键信息的能力;2)基于获取的全部信息,以 抽取式 (Extractive)或者 抽象式 (Abstractive)推理出答案的能力。
在这些基础能力的维度上,作者构建了了 CLongEval 基准测试集。该测试集包含了 7 个任务共 7,267 个测试样本,包括长篇故事问答(Long Story QA)、长对话记忆(Long Conversation Memory)、长篇故事摘要(Long Story Summarization)、新闻标注(Stacked News Labeling)、错别字检测(Stacked Typo Detection)、段落检索(Key-Passage Retrieval)和表格查询(Table Querying)。
其中,长篇故事问答和长对话记忆均为全新标注的数据。长篇故事摘要由 GPT-4 进行辅助标注。其余 4 个任务由公共数据集重构得来。
由于目前 LLM 支持的文本长度窗口(context window)差异较大,为了确保基准测试集的适用性,CLongEval 按照输入文本的长度构建了三个子集:small set、medium set 和 large set。small set 主要包括长度在 1K 到 16K 个 token 之间的测试数据,medium set 是 16K 到 50K 个 token 之间,而 large set 包含的数据扩展到 50K 到 100K 个 token。下表展示了数据集的具体统计信息。
以下是 CLongEval 包含的测试任务。每个任务针对测试一种上文提到的基础能力。
下表为主实验结果,展示了 6 个开源模型和 2 个闭源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的表现。
作者分析了参考答案在上下文中的对应位置对模型性能的影响,结果如下图所示。作者在需要部分上下文的四个任务上进行实验,发现在长篇故事问答和长对话记忆这两个任务中,“Lost in the middle” 这一现象较为明显。
下面的两张图展示了 GPT-4-Turbo 与 Moonshot-v1 在新闻标注这个任务中不同位置与不同深度的分类准确率的可视化分析。可以发现,Moonshot-v1 的表现更加稳定。
更多实验结果以及分析请参考原文。
原文链接: