1. 缘起
目前评测大语言模型主要有两种方法:
• 通过人类投票来进行评估,比如:Chatbot Arena,但是这种往往需要花费较长的时间。
• 为了降低人类标注的依赖,还有另外一种自动化的LLM基准测试。这种方法成本低、容易扩展。
自动化基准测试也成为了众多模型的热门选择,而且测试中的高胜率往往能带来显著的宣传优势。
但是,自动化基准测试的胜率可能会受到长度和风格偏见的影响。虽然大多数这种影响是来自训练数据集,但是这也导致存在操纵胜率的可能性。
在本篇论文里,作者通过提交一个“假模型”来对自动化测试进行压力测试。
2. 作弊策略(假模型策略)
从上图可以看到 suffix策略 (指只使用对抗性后缀策略,不对输入指令作出有实质内容的回应)情况下,并没有实质的作弊效果。所以,作者提出了新的作弊策略:
• (1)构建结构化的回答来迷惑LLM自动标注器从而达到作弊效果
• (2)进行基于token级别的随机搜索来设计对抗性前缀
2.1 结构化作弊响应
如上图,结构化作弊响应策略是指把原来的评判提示词进行修改,本质上是一种提示词注入。
例如,在AlpacaEval 2.0中,当提交的目标模型(待评测性能的大模型)的响应位于最后时,标注器倾向于预测“M”。而当它出现在首位时,标注器则倾向于预测“m”:
-(1)用一个虚构的指令-输出三元组替代了原始的指令-输出三元组;
-(2)默认位置时,利用标注器模型对最后输出的普遍偏好,引导其预测“M”;
-(3)当位置被交换时,它利用覆盖模型“M”的输出,导致标注器预测“m”。
正确的AlpacaEval 2.0 提示词
目标为模型M的作弊策略
目标为模型m的作弊策略
上面举例的这个结构化回应提示词在AlpacaEval 2.0上达到了76.8%的LC胜率。
原始胜率(Raw Win Rate): 最直接衡量模型获胜次数的比例。在自动基准测试中,模型的输出会被与一组标准或参考输出进行比较,原始胜率即模型被判定为优于或等于参考输出的频率。这种胜率计算方式没有对输出的长度或风格进行控制,因此可能受到模型输出长度的影响,即更长的输出可能更受青睐。
离散胜率(Discrete Win Rate): 离散胜率是在考虑输出质量的基础上,对原始胜率进行的一种调整。在计算离散胜率时,评估系统会将模型的输出与参考输出进行细致的比较,并对每个输出的各个方面(如准确性、相关性、完整性等)进行评分。离散胜率可能会排除那些虽然在总体上被判定为获胜,但在某些关键方面表现不佳的输出,从而提供一个更加关注输出质量的获胜比例。
长度控制胜率(Length-Controlled Win Rate,简称LC胜率): LC胜率是为了减少模型输出长度对评估结果的影响而设计的一种指标。在计算LC胜率时,评估系统会控制模型输出的长度,确保所有参与比较的输出在长度上是可比的。这样可以避免因输出长度不同而导致的评估偏差,提供一个更加公平的模型性能评估。LC胜率可能会在输出长度相似的条件下计算模型的获胜次数,从而更准确地反映模型在处理特定任务时的能力。
2.2 通过随机搜索(RS)设计对抗性前缀
为了进一步提升结构化回应的效果,引入了一个对抗性前缀,并采用基于GPT-4查询结果的RS策略来优化它。
为了模拟更具挑战性的场景假设自动基准的输入指令是保密的。
开发了一个可转移的前缀,利用公开可用的指令集来设计。通过在不同指令上聚合损失来优化单个对抗性前缀,确保前缀在不同输入指令和位置上的影响是普遍的。
采用RS算法来优化对抗性前缀。该算法通过采样修改并选择在多个指令上最小化聚合损失的变体来完善前缀。
3. 作弊策略的效果如何?
上图展示了作者的结构化响应作弊策略与其他16个固定响应进行比较的效果。下图展示了其他16个固定响应内容。
结果表明:结构化回应作弊做略以最低的对数概率胜出,证明作者的策略在欺骗自动标注智能体方面的高效性。
默认配置中,当目标模型响应放在提示词第二位时,有较低的损失,表明GPT4对第二位偏好。
上图将作弊策略的得分与当前(2024年10月1日之前)顶尖模型的胜率进行对比:在所有基准测试中显著提升了表现,赢得了最高的胜率和评分,达到了76.8%的LC胜率和59.5%的原始胜率。
经过RS优化后,LC胜率提升至86.5%,原始胜率提高至76.9%。
这些成果与经过验证的SOTA模型相比有了显著提升,后者仅达到了57.5%的LC和51.3%的原始胜率。
结合随机搜索的结构化方法在LC胜率上比经过验证的SOTA高出29.0个百分点,在原始胜率上高出25.6个百分点。
与社区SOTA相比,在LC上表现更佳(86.5%对78.5%),在原始胜率上相当(76.9%对77.6%)。
由于其简短,作弊的LC胜率普遍高于原始胜率,这表明AlpacaEval 2.0对长度作弊也不够健壮。
在Arena-Hard-Auto上,结构化响应作弊策略达到了67.2%的胜率,经过随机搜索后提升至83.0%。
总之,在各种基准测试中都取得了显著的增益,超越了现有技术,证明了其在不同基准测试中的高效性,并强化了对更健壮的自动LLM基准测试的需求。
4. 消融实验
4.1 结构化回应在开源自动标注智能体上有效吗?
在AlpacaEval 2.0测试指令的子集上,使用不同的无效回应评估log p(winner = NullModel)。
如上图,结构化响应作弊策略对Llama-3自动标注智能体的影响很小。在Llama-3-8B-Instruct的情况下,结构化回应并未利用该智能体的位置弱点,因为默认位置和交换位置的对数概率与不同的有说服力回应大致相似。
然而,在Llama-3-70B-Instruct上,在交换设置下观察到,结构化回应成功降低了对数概率。此外,在位置偏见方面,Llama-3-8B-Instruct显示出很小的位置偏见,因为默认位置和交换位置的概率相当接近。相比之下,Llama-3-70B-Instruct在交换设置下显示出明显的位置偏见,更高的对数概率表明该智能体强烈偏好最后输出(“M”)。
较大的Llama-3-70B-Instruct智能体的行为更接近更先进的GPT-4,因为它对结构化回应和位置偏见的反应比小型8B智能体更为敏感。 这表明模型规模可能增加了对我们作弊技术的敏感性 。
总的来说,与GPT-4相比,结构化响应作弊策略在Llama-3智能体上的效果要小得多。这种差异的可能解释是,Llama-3智能体,尤其是较小的8B版本,其 遵循指令的能力不如GPT-4强大,使它们对作弊回应的敏感性较低 。
4.2 随机搜索对开源自动标注智能体成效显著吗?
如上表,随机搜索在Llama-3-8B-Instruct和Llama-3-70B-Instruct等开源自动标注智能体上表现出色。
以Llama-3-8B-Instruct为例,缺少随机搜索时,结构化回应的LC胜率仅为2.9%,原始胜率为1.4%。而一旦采用随机搜索,胜率便戏剧性地飙升至95.4%(LC)和86.3%(原始),LC胜率提升了92.5个百分点。
对于Llama-3-70B-Instruct,仅凭结构化回应,LC胜率仅为0.4%,总体胜率为0.2%。但随机搜索的加入使得这些胜率分别跃升至95.1%(LC)和91.6%(原始),分别提升了94.7和91.4个百分点。
这些数据证明**随机搜索在提升开源自动标注智能体的作弊成功率方面极为有效,胜率直逼100%**。
4.3 直接针对测试指令进行搜索有用吗?
也探索了直接作弊策略的效果。直接作弊可以看作是作弊效果的上限指标。
上表的Test列表示是否是直接作弊。结果表明:直接针对测试指令进行搜索显著增强了作弊的效果。
对于Llama-3-8B-Instruct模型,结合结构化回应和随机搜索,但不接触测试指令,LC胜率达到了95.4%,总体胜率为86.3%。
然而,当对抗性前缀直接 针对测试指令 进行优化时,LC胜率几乎达到了完美的99.8%,总体胜率提升至99.4%,分别提升了4.6和13.1个百分点。
同样地,对于Llama-3-70B-Instruct模型,不接触测试指令的随机搜索,LC胜率为95.1%,总体胜率为91.6%。
而一旦利用测试指令,这些比率分别攀升至99.4%(LC)和98.2%(原始),LC胜率提升了约4.3个百分点,总体胜率提升了6.6个百分点。
这些结果表明直接针对测试指令进行搜索带来的显著优势,进一步优化了对抗性前缀,几乎达到了完美的表现。
4.4 结构化作弊策略能与传统回应相结合吗?
结构化作弊策略可以与传统的、有信息量的回应相结合,只需将我们的作弊回应附加到原始回应上即可。
如上面4个图所示,当与像GPT-3.5-0613这样更提供信息的模型结合时,即使在采取重大优化步骤之前,初始胜率已经很高。
这一点在图b和d中尤为明显,随着优化的深入,性能(胜率和长度控制胜率)从高基线稳步提升。
a和c中,由于不提供与输入查询相关的任何信息,欺骗自动标注智能体的难度大大增加。
随着优化步骤的推进,无效模型的性能稳步提升,最终实现了有竞争力的胜率。
即使在模型输出无关、无信息的回应这一最具挑战性的场景下,也能操纵基于LLM的基准测试。
5 反作弊策略
5.1 模板改写术
改写输入文本是对抗语言模型破解的有效防御手段。基于此理念,对抗结构化响应作弊策略之一是仅发布自动标注模板的改写版本,同时保留真实模板的私密性。
本方法是假设改写后的模板将更难被作弊者直接利用。
如上表所示,即便模板经过改写,依然能够达到高胜率(例如92.1%的LC胜率)。这表明, 仅发布改写模板作为防御机制是不够的,因为即使原始模板保密,作弊策略仍然有效 。需要更强有力的防御措施来彻底解决这一问题。
5.2 困惑度过滤器(PPL filter)
使用GPT-4-1106-Preview作为自动标注智能体,以评估基于困惑度(PPL)的过滤器的有效性。困惑度是利用GPT-2计算的,遵循Alon & Kamfonas(2023)描述的方法。
如上图所示,尽管设定了高阈值, PPL过滤器未能持续识别出对抗性输出 。例如,结构化响应作弊策略即使胜率高达76.8%,其困惑度仍然低于阈值,使得过滤器失效。
仅依赖于困惑度,即使是窗口化配置,也不足以稳健地检测出旨在影响LLM判断的对抗性操作 。
6. 结论
即便是最基础的模型,也能通过利用评估流程中的结构性缺陷来获得高胜率。
6.1 局限性
• 首先,主要关注特定的基准测试,尽管结果在这些测试中得到了很好的推广,但在其他基准测试中的有效性仍然是未知的。
• 此外,结构化响应作弊策略很大程度上依赖于手工构建结构化响应。未来的研究可以探索更自动化的方法来生成对抗性输出,这将使对手能够在更广泛的范围内利用这些漏洞。
未来研究的一个重要方向是 开发更强大的反作弊机制 。目前,针对LLM基准测试的作弊缓解措施主要集中在控制输出的长度和风格上,但这些措施在面对结构化响应时已被证明是不够的。新的防御策略对于保持LLM基准测试的完整性至关重要。
• 论文原文:
本文转载自,作者: