却更优更弱更小通过计算最优抽样训练大语言模型推理器

一、结论写在前面

论文标题：Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

论文链接：

利用来自强大语言模型（LMs）的高质量合成数据进行训练是提升LMs推理性能的常见策略。论文重新审视了在固定推理预算（例如，FLOPs）下，这一策略是否为计算最优。为此，论文探究了使用更强但更昂贵（SE）模型与较弱但更廉价（WC）模型生成合成数据之间的权衡。

论文评估了生成数据在三个关键指标上的表现：覆盖率、多样性和误报率，并表明WC模型生成的数据可能具有更高的覆盖率和多样性，但也表现出更高的误报率。

随后，论文在不同设置下对LMs进行微调：知识蒸馏、自我改进以及一种新颖的弱到强改进设置，其中较弱的LM向较强的LM传授推理能力。论文的研究发现，在多个基准和多种WC与SE模型选择下，基于WC生成数据微调的模型始终优于那些基于SE生成数据训练的模型。这些结果挑战了当前依赖SE模型生成合成数据的主流做法，表明WC可能是训练高级LM推理器的计算最优途径。

一个具体例子是：对于Gemma2系列在MATH数据集上，Gemma2-9B实现了11%更高的覆盖率和86%更高的多样性，但也伴随着7%的更高FPR，相比于Gemma2-27B。

图 1 | 结果总结。(a) 论文在计算匹配的设置下，使用从更强大但更昂贵的LM（Gemma2-27B）和较弱但较便宜的LM（Gemma2-9B）收集的合成数据，对Gemma-7B、Gemma2-9B和Gemma2-27B进行微调，用于MATH数据集。论文发现，在多种微调范式——知识蒸馏、自我改进和弱到强改进（即使用较弱的模型来改进较强的模型）中，使用Gemma2-9B数据进行训练是更计算优化的设置。(b) 论文在价格匹配的设置下，使用由最先进的LM Gemini-1.5-Pro和Gemini-1.5-Flash生成的合成数据，对Gemma模型（7B/9B/27B）进行微调。论文发现，使用Flash生成的数据进行微调始终优于使用Pro生成的数据。

二、论文的简单介绍

2.1 论文的背景

最近的研究表明，通过语言模型自身合成生成这些数据是可行的，这为训练数据的获取提供了一种潜在的更具扩展性和效率的方法。一种广泛采用的方法是从LM中为一个问题采样多个候选解决方案，过滤它们以确保最终答案的正确性，并在正确的解决方案上对模型进行微调。多项研究表明，使用这种合成解决方案训练的LM优于使用人类编写的解决方案训练的LM。从业者通常从强大的LM中采样解决方案以确保高质量。然而，从强大的LM中采样是昂贵且资源密集型的，并且限制了在实际采样预算内可以生成的解决方案数量。

论文探索了一种替代采样方法。在固定的计算预算下，论文研究了从较弱但更便宜（WC）模型采样，而不是通常采用的从较强且昂贵的微调LM（stronger but more expensive，SE）采样的方法。通过比较WC和SE的数据，论文沿着三个在合成数据效用中起关键作用的方向进行分析：1-覆盖率，解决的独特问题的数量；2-多样性，每个问题获得的平均独特解决方案数量；以及3-假阳性率（FPR），即以错误理由得出正确最终答案的问题百分比。

论文发现，由于可以从WC模型生成更多的样本，与后者相比，这可能导致解决更广泛的问题，并在固定预算下提供更多数据。论文在各种监督微调设置中比较了这两种合成生成的数据集对训练LM推理器的效用，并显示使用WC数据训练始终优于使用SE数据训练。作为一个具体例子，对于Gemma2系列在MATH数据集（Hendrycks等人，2021）上，Gemma2-9B实现了11%更高的覆盖率和86%更高的多样性，但也伴随着7%的更高FPR，相比于Gemma2-27B。

2.2. 预备知识

设 D={q_i, a_i} _i=1 ^i=n 为一个包含 n 个推理问题 q_i 及其最终答案（即标签） a_i 的训练数据集。利用此类数据提升模型推理能力的成功方法如下：论文采样k 个样本，其中 r_i j 是模型为 q_i 生成的第 j 个推理链（即解决方案），a_i j 是模型在非零温度下对 q_i 的最终答案，并创建合成数据 D_G={q_i, {( r_i j, a_i j )}_j=1 ^j=k 。

接着，论文通过比较 a_i j 与 a_i 来过滤错误的解决方案，移除那些最终答案与标准答案不匹配的方案。最后，论文在剩余数据 D_G 上监督微调模型，以最大化目标函数

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#悟道 #AI #云雀 #文心一言 #开源大模型 #AIGC应用 #混元 #大模型 #OpenAI #Copilot #紫东太初 #GPT #日日新 #LaMDA #模型 #盘古 #4 #AIGC #Agent #ChatGPT #孟子 #推理器 #Bard #通义千问 #言犀 #语言 #多模态 #清言 #人工智能 #Sora