LLMs的智能本质是什么?
在之前的文章中,我谈到了评估大型语言模型能力的困难。这些模型在许多基准测试中表现出色,但我们通常不知道基准测试中的测试项目,或足够相似的项目,是否出现在训练数据中。这些模型是在进行一般性的理解和推理,还是在进行AI研究员Subbarao Kambhampati所说的“近似检索”——依赖于模型训练数据中包含的文本模式?
反事实任务范式
反事实任务范式可以帮助回答这个问题。在这个范式中,模型在成对的任务上进行评估,这些任务需要相同类型的抽象和推理,但对于每一对任务,第一个任务的内容可能与训练数据相似,而第二个任务(“反事实任务”)的内容被设计成不太可能与训练数据相似。
例如,论文《Reasoning or Reciting: Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks》(《推理还是背诵:通过反事实任务探索语言模型的能力和局限性》)研究了GPT-4在判断一组四步开局棋是否合规时的表现。GPT-4似乎对国际象棋有很好的理解;当给出以下提示时,它能够以接近90%的准确率回答“是”或“否”:
你是一名国际象棋棋手。给定一个开局,确定这个开局是否合法。开局不需要是一个好的开局。如果所有棋步都合法,则回答“是”。如果开局违反任何国际象棋规则,则回答“否”。新的开局“1.e4 e6 2.Be2 Bc5”是否合法?让我们一步一步来思考。
作者的这个任务的反事实版本是要求GPT-4想象一个新的国际象棋变体,其中一切都相同,除了骑士和主教交换了初始位置。以下是该任务的示例提示:
你是一名国际象棋棋手。你正在玩一个国际象棋变体,其中每种颜色的骑士和主教的起始位置互换。骑士放在主教以前的位置,主教放在骑士以前的位置。给定一个开局,确定这个开局是否合法。开局不需要是一个好的开局。如果所有棋步都合法,则回答“是”。如果开局违反任何国际象棋规则,则回答“否”。在这种自定义变体下,新的开局“1.e4 e6 2.Nfe2 Nc5”是否合法?让我们一步一步来思考。
这种国际象棋版本的例子在GPT-4的训练数据中出现的可能性要小得多。作者(以及我自己的)直觉是,理解国际象棋的人类可以很容易地将他们的知识适应这种新版本。然而,GPT-4在这个反事实任务上的准确率下降到大约54%(随机猜测将产生50%的准确率)。
作者展示了几种其他类型的任务,也有类似的效果。他们得出结论,大型语言模型表面上的推理能力可能在很大程度上依赖于训练数据中的模式,即“近似检索”而非一般的抽象推理能力。
Meta的Yann LeCun在X(推特)上表示赞同:
ASU的Subbarao Kambhampati表示赞同:
另一篇使用这种评估范式的论文是《Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve》(《自回归余烬:通过训练任务理解大型语言模型》)。“自回归余烬”这个短语是对另一篇知名LLM论文《Sparks of AGI》(《AGI火花》)标题的幽默戏仿。其观点是,由于像GPT-4这样的LLM是通过自回归训练的(即预测输入中的下一个标记),它们的行为将反映自回归所带来的偏见。
例如,考虑将句子中的单词顺序颠倒的简单任务:
输入:paintings. the with pleased totally not was he True,
正确输出:True, he was not totally pleased with the paintings.
你可能会认为执行此任务的能力不依赖于句子中的特定单词。然而,当输出句子是可能的(即,根据前一个标记计算出的每个标记的概率高)时,GPT-3.5和GPT-4在这个任务上的表现都很好;但在输出句子不太可能时,这些系统在该任务上的表现要差得多,例如,对于这个例子:
输入:paintings. the with pleased he totally was not True,
正确输出:True, not was totally he pleased with the paintings.
以下是总体表现情况,与LLM计算的输出句子的概率对比绘制的图表:
尽管输出句子的概率无关紧要,但LLM的训练目标是预测可能的下一个标记,这泄露到了模型在任务上的表现中——这是一种自回归的痕迹。论文中给出了更多的例子。
许多其他“压力测试”LLM推理能力的论文也显示了类似的结果。在本文结尾,我提供了各种关于这一主题的论文链接,供读者跟进。
总之,LLM似乎具有一定的推理能力,但如果不对它们进行压力测试(例如,通过反事实任务),就无法得出它们在一般情况下进行推理,而不是依赖于其训练数据,以无法泛化到分布外示例的方式进行推理的结论。
附录:使用反事实任务(或相关压力测试)评估LLM的论文
Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., & Kim, Y. (2023). 《Reasoning or reciting? Exploring the capabilities and limitations of language models through counterfactual tasks》. arXiv preprint arXiv:2307.02477.
McCoy, R. T., Yao, S., Friedman, D., Hardy, M., & Griffiths, T. L. (2023). 《Embers of autoregression: Understanding large language models through the problem they are trained to solve》. arXiv preprint arXiv:2309.13638.
Miceli-Barone, A. V., Barez, F., Konstas, I., & Cohen, S. B. (2023). 《The larger they are, the harder they fail: Language models do not recognize identifier swaps in Python》. arXiv preprint arXiv:2305.15507.
Shapira, N., Levy, M., Alavi, S. H., Zhou, X., Choi, Y.,Goldberg, Y., Sap, M. & Shwartz, V. (2023). 《Clever Hans or neural theory of mind? Stress testing social reasoning in large language models》. arXiv preprint arXiv:2305.14763.
Verma, M., Bhambri, S., & Kambhampati, S. (2024年3月). 《Theory of Mind abilities of Large Language Models in Human-Robot Interaction: An Illusion?》. In Companion of the 2024 ACM/IEEE International Conference on Human-Robot Interaction (pp. 36-45).
Srivastava, S., PV, A., Menon, S., Sukumar, A., Philipose, A., Prince, S., & Thomas, S. (2024). 《Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap》. arXiv preprint arXiv:2402.19450.
Lewis, M., & Mitchell, M. (2024). 《Using counterfactual tasks to evaluate the generality of analogical reasoning in large language models》. arXiv preprint arXiv:2402.08955.
本文转载自,作者: