一、结论写在前面
论文标题:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
论文链接:
利用来自强大语言模型(LMs)的高质量合成数据进行训练是提升LMs推理性能的常见策略。论文重新审视了在固定推理预算(例如,FLOPs)下,这一策略是否为计算最优。为此,论文探究了使用更强但更昂贵(SE)模型与较弱但更廉价(WC)模型生成合成数据之间的权衡。
论文评估了生成数据在三个关键指标上的表现:覆盖率、多样性和误报率,并表明WC模型生成的数据可能具有更高的覆盖率和多样性,但也表现出更高的误报率。
随后,论文在不同设置下对LMs进行微调:知识蒸馏、自我改进以及一种新颖的弱到强改进设置,其中较弱的LM向较强的LM传授推理能力。论文的研究发现,在多个基准和多种WC与SE模型选择下,基于WC生成数据微调的模型始终优于那些基于SE生成数据训练的模型。这些结果挑战了当前依赖SE模型生成合成数据的主流做法,表明WC可能是训练高级LM推理器的计算最优途径。
一个具体例子是:对于Gemma2系列在MATH数据集上,Gemma2-9B实现了11%更高的覆盖率和86%更高的多样性,但也伴随着7%的更高FPR,相比于Gemma2-27B。
图 1 | 结果总结。(a) 论文在计算匹配的设置下,使用从更强大但更昂贵的LM(Gemma2-27B)和较弱但较便宜的LM(Gemma2-9B)收集的合成数据,对Gemma-7B、Gemma2-9B和Gemma2-27B进行微调,用于MATH数据集。论文发现,在多种微调范式——知识蒸馏、自我改进和弱到强改进(即使用较弱的模型来改进较强的模型)中,使用Gemma2-9B数据进行训练是更计算优化的设置。(b) 论文在价格匹配的设置下,使用由最先进的LM Gemini-1.5-Pro和Gemini-1.5-Flash生成的合成数据,对Gemma模型(7B/9B/27B)进行微调。论文发现,使用Flash生成的数据进行微调始终优于使用Pro生成的数据。
二、论文的简单介绍
2.1 论文的背景
最近的研究表明,通过语言模型自身合成生成这些数据是可行的,这为训练数据的获取提供了一种潜在的更具扩展性和效率的方法。一种广泛采用的方法是从LM中为一个问题采样多个候选解决方案,过滤它们以确保最终答案的正确性,并在正确的解决方案上对模型进行微调。多项研究表明,使用这种合成解决方案训练的LM优于使用人类编写的解决方案训练的LM。从业者通常从强大的LM中采样解决方案以确保高质量。然而,从强大的LM中采样是昂贵且资源密集型的,并且限制了在实际采样预算内可以生成的解决方案数量。
论文探索了一种替代采样方法。在固定的计算预算下,论文研究了从较弱但更便宜(WC)模型采样,而不是通常采用的从较强且昂贵的微调LM(stronger but more expensive,SE)采样的方法。通过比较WC和SE的数据,论文沿着三个在合成数据效用中起关键作用的方向进行分析:1-覆盖率,解决的独特问题的数量;2-多样性,每个问题获得的平均独特解决方案数量;以及3-假阳性率(FPR),即以错误理由得出正确最终答案的问题百分比。
论文发现,由于可以从WC模型生成更多的样本,与后者相比,这可能导致解决更广泛的问题,并在固定预算下提供更多数据。论文在各种监督微调设置中比较了这两种合成生成的数据集对训练LM推理器的效用,并显示使用WC数据训练始终优于使用SE数据训练。作为一个具体例子,对于Gemma2系列在MATH数据集(Hendrycks等人,2021)上,Gemma2-9B实现了11%更高的覆盖率和86%更高的多样性,但也伴随着7%的更高FPR,相比于Gemma2-27B。
2.2. 预备知识
设 D={q_i, a_i} _i=1 ^i=n 为一个包含 n 个推理问题 q_i 及其最终答案(即标签) a_i 的训练数据集。利用此类数据提升模型推理能力的成功方法如下:论文采样k 个样本,其中 r_i j 是模型为 q_i 生成的第 j 个推理链(即解决方案),a_i j 是模型在非零温度下对 q_i 的最终答案,并创建合成数据 D_G={q_i, {( r_i j, a_i j )}_j=1 ^j=k 。
接着,论文通过比较 a_i j 与 a_i 来过滤错误的解决方案,移除那些最终答案与标准答案不匹配的方案。最后,论文在剩余数据 D_G 上监督微调模型,以最大化目标函数