System 1和System 2的思维来自丹尼尔·卡尼曼(Daniel Kahneman)的《思考,快与慢》一书。里面介绍了两种不同的认知处理模式。System 1快速、自动且直观,几乎无需费力即可操作。这种思维模式使人类能够根据模式和经验做出快速决策和判断。相比之下,System 2是缓慢的、深思熟虑的和有意识的,需要有意识地努力。这种类型的思维用于复杂的问题解决和分析任务,在这些任务中需要更多的思考和考虑。
上下班途中,人总是知道该走哪条路线,而无需有意识地考虑。一般而言会自动走到地铁站,习惯性地在同一个站点下车,然后在你的思绪徘徊时走到你的办公室。假如某天地铁停了,那么就需要花费时间分析其他上班路线,以便选择最快的一条。公交车在运行吗?外面温度如何?走路可行?打车费用多少?两种情况的思维模式直观地体现了较慢的思维过程和瞬时思维过程之间的差异。
在这篇研究中,研究人员探索了三种System 2方法——RaR、S2A 和 BSM,这些方法已经成功提炼到新的LLM,这个新的模型与System 1相比,产生了更好的结果,而且成本低于System 2。然而这种方法是有局限性,只能适用于特定的任务或受限于模型训练的数据集。
大模型的业界已经提出了一系列相关的System 2技术,包括思维链(COT)、思维树、思维图、分支解决合并(BSM)、System 2 Attention(S2A)、Rephrase and Respond (RaR)等。得益于这种明确的推理,许多方法都显示出更准确的结果, 但这样做通常会带来更高的推理成本和响应延迟。因此此类方法未在生产系统中使用,而大多使用了System 1。
上图为BSM的架构,先是分支,然后独立解读,最后合并
对于人类来说, 学习将技能从深思熟虑(System 2)转移到自动(System 1)的过程在心理学中被称为自动性,以及程序记忆的使用。例如,第一次开车上班时,人们通常会花费有意识的努力来计划和做出到达目的地的决定。而在驾驶员重复这条路线后,驾驶过程就会「编译」到潜意识中。
来自 Meta FAIR 的研究者探索一种将System 2蒸馏到System 1的方法。通过在未标记的数据上运行System 2方法来收集过滤的训练样本,然后使用额外的计算产生更高质量的输出。最后将这些蒸馏出来的训练数据用于训练System 1的LLM。
在两个流行的基准上评估这种方法提出的模型,即OASST2和MT-bench。OASST2 验证集包含273个样本。MT-bench则用于评估LLM在充当有用的AI助手对话时的反应,它由8个不同领域的指令组成,例如写作、推理、数学、编码等。这两个指标的评估还是相当不错。
而下表也揭示了研究存在缺项,System 2蒸馏方法在各种解码超参数上的性能都很差。GSM8k任务(数学问题)需要一种非常不同的推理。这凸显了System 2蒸馏的重要方面:所提出的蒸馏算法在许多情况下都有效,但并非总是有效。这为未来的研究留下了空间,以阐明在哪些情况下应该应用蒸馏,以及何时不应用蒸馏。
本文转载自,作者: