普林斯顿大学和耶鲁大学的研究人员发现,大型语言模型(LLM)在解决看似简单的解码移位密码任务时,其推理能力并非源于纯粹的符号推理,而是一种结合了记忆和概率推理的复杂过程。
以往研究普遍认为,思维链(CoT)提示可以增强 LLM 的推理能力,使它们能够执行多步推理任务。然而,这些研究大多使用复杂的多任务评估,难以分离影响 LLM 性能的因素。
为了深入理解 CoT 推理的影响因素,研究人员使用 GPT-4、Claude 3 和 Llama 3.1 等 LLM 执行了一个简单的移位密码解码任务。移位密码将字母表中的每个字母向前或向后移动一定数量的位置。解码的任务是反向操作,即向后移动。
研究人员发现,CoT 提示确实可以提高 LLM 的推理表现,但这种提升并非源于纯粹的符号推理。相反,LLM 采用了以下三种推理过程的组合:
* 噪声推理:LLM 类似于符号推理,但会引入噪声,导致推理过程中每个中间操作出错。研究人员发现,随着需要执行的推理步骤增加,准确率会下降,表明 LLM 正在进行噪声推理。
* 记忆:LLM 可以记住在预训练期间遇到的任务,并利用这些记忆来解决新任务。研究人员发现,LLM 在最常见的移位级别(13)上表现最好,表明它们正在利用预先学习的知识。
* 概率推理:LLM 将任务框架为选择给定输入下最可能的输出,推理过程受到输出先验概率的影响。研究人员发现,LLM 在正确答案概率较高的任务上表现得更准确,表明它们正在执行概率推理。
综合来看,CoT 提示带来的性能提升既反映了 LLM 在推理过程中有记忆的因素,也有真实推理的概率因素。LLM 并不完全依赖于符号推理,而是结合了各种推理策略来解决复杂的任务。
这项研究揭示了 LLM 推理能力的复杂性,并为理解 CoT 提示在增强机器推理中的作用提供了新的见解。研究人员建议,未来的研究应该探索不同任务和推理过程如何影响 LLM 的推理性能。
原创文章,作者:讯知在线,如若转载,请注明出处:http://web.xzxci.cn/2024/11/13/13424.shtml