原文towardsdatascience.com/the-savant-syndrome-is-pattern-recognition-equivalent-to-intelligence-242aab928152|LLM|INTELLIGENCE|REASONING|https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e8958ca33aefcef8e13d9c07d01b8f8f.png由作者使用 DALL-E 生成的图像我几乎从未见过一个能够推理的数学家。 – 柏拉图推理得出结论但不一定使结论确定除非心灵通过经验之路发现它。 – 罗杰·培根大型语言模型LLMs 已展现出非凡的能力尤其是在自然语言处理NLP的经典任务中如问答。令人惊讶的是它们在需要推理的复杂任务如编码和数学中也表现出改进。这些能力长期以来一直被认为是人类独有的。因此声称 LLMs 可以解决需要推理的任务引发了一场热烈的辩论。大型语言模型LLMs真的能推理吗或者它们只是复杂的模式匹配器推理能力对于使 AI 系统能够与人类互动并在关键任务中使用至关重要。推理需要你进行逻辑推理进行推理解决问题并能够从可用信息中做出决策。这些技能对于真正帮助我们进行科学发现、医疗保健、金融和教育等领域的模型也是必需的。随着新模型的发布这场辩论变得更加激烈。随着OpenAI GPT-4o1的发布人们对训练具有思维链COT的模型以提高推理能力产生了浓厚兴趣。经过 COT 训练的 LLMs 的结果导致一些公司宣称今天的 LLMs 具有推理能力通用人工智能AGI正在变得更近。今天我们有一个激烈的辩论一方面公司和一些研究人员声称模型具有推理能力另一方面其他人将大型语言模型LLMs定义为随机的鹦鹉。对 Transformer 的挽歌OpenAI 的新“推理”AI 模型来了它们能经受住炒作吗在这篇文章中我们将专注于尝试回答以下问题推理意味着什么LLMs 具有推理能力还是只是鹦鹉我们真的以正确的方式衡量推理吗推理的定义是什么推理是基于可用信息、逻辑和分析得出结论或做出决策的基本认知过程。根据亚里士多德的观点推理可以分为两种类型演绎推理从一般原则推导出具体结论。归纳推理基于观察的概括。很长时间以来人们认为只有人类能够进行推理。今天已经证明灵长类动物、章鱼和鸟类也表现出基本的推理形式例如做出决策或解决问题。通常推理被认为是解决复杂问题或做出决策的过程。复杂的问题解决需要识别问题将其分解为子问题寻找模式然后选择最佳解决方案。决策制定同样需要识别问题和模式并在选择最佳解决方案之前评估替代方案。这些定义的问题在于它们并不完全清晰。此外根据这些定义LLMs 也可以被认为是具有推理能力的。LLM 是否能够进行推理在衡量推理技能的基准测试中如GLUE、SuperGLUE和HellaswagLLMs 的表现超过了人类。对一些人来说这意味着 LLMs 可以进行推理并得出逻辑结论。这些新的推理能力主要归因于两个因素大型语言模型LLMs在所有针对推理的基准测试中都表现出推理能力。随着参数、标记数量和计算预算的增加出现了新的属性。使用如 CoT概念图技术等技术允许模型发挥其潜力。因此如果我们想声称 LLMs 无法进行推理我们必须挑战这些说法。LLM 在推理基准测试中的惊人结果当然当有人声称 LLMs 不具备推理能力时即将到来的通用人工智能AGI的支持者会回应“看看推理基准测试的结果。”用鸭子测试来比喻如果它解决问题的方式像人类做出决策的方式像人类在推理基准测试中获胜那么它很可能像人类一样进行推理。其他作者对此结论提出了质疑[1]。虽然从表面上看模型似乎能够进行复杂的推理但更深入地观察它们依赖于概率模式匹配而不是形式推理。强标记偏差表明模型依赖于输入中的表面模式而不是真正理解底层推理任务。 – 来源换句话说这些脆弱的表现表明当遇到与训练期间所见模式不同的新示例时LLMs无法泛化。因此改变示例中的标记会导致逻辑谬误因为模型无法再将示例映射到训练中看到的内容。因此模型对它们所测试的示例非常敏感且脆弱这可以解释为什么它们有时似乎表现出出色的推理能力有时又失败得非常明显。通过对示例标记的扰动这种脆弱性被突出显示导致大型语言模型LLM无法解决问题因此其“推理”依赖于这些标记并将它们映射到训练集中所见的内容。这一点通过训练数据中示例频率与测试性能之间的相关性得到证实[8]。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f9a4a903269ab8b4d73dfd1c930ce599.png“图论中的经典“二十五马”问题。顶部两个子图仅用于说明目的由 GPT-4o 生成 1通过将“马”这个名字改为“兔子”与问题的底层逻辑无关来展示这一概念。底部两个子图显示了 GPT-4 和 Claude 的实验结果其中由于动物名称和数量的扰动性能显著下降。” - 图片来源这里这种现象被称为提示敏感性对语义上等效于另一个提示的不同响应[11–12]。这表明模型对与训练文本更相似的提示响应更好。它们对噪声也很敏感[2]。事实上大型语言模型很容易被无关的上下文所分散注意力这会导致推理性能下降。此外即使是通过所有那些提示技术也无法消除噪声效应这些技术专门用于提高推理能力。这表明通过噪声扰动的映射会影响模型在记忆中寻找模式的能力。智力是一种涌现属性对于许多人来说智能是一种涌现属性。生物系统自然倾向于变得更加复杂并获取新的能力否则它们将被进化压力淘汰。因此进化过程导致越来越智能或更专业的人类的出现。因此智能在这种压力下进化。这显然需要资源所以大脑增长到支持智能的关键水平。对于一些人来说损失函数在模式训练中充当进化压力。因此一旦模型拥有了足够的“神经元”它们就可以发展推理技能在技术术语中推理属性随着规模的出现而出现。如前所述这种推理能力的增强归因于规模的增加无论是参数还是训练标记。然而对于几位作者来说推理能力是一种涌现属性需要达到一定的参数阈值才能出现。然而后来的研究表明LLM 中的涌现属性可能是测量误差因此整个理论与推理的涌现[3, 13]有关。人工智能中的涌现能力我们是在追逐一个神话吗有时噪音是音乐有益的噪音如何改善你的 RAGCoT 并非一切根据其他作者的观点LLM 具有推理能力但需要解锁。因此思维链 (CoT) 提示有助于模型通过中间推理解锁其潜力从而引导它在算术问题中找到正确答案[4]。几周前一篇文章质疑了 CoT 的实际益处[5]在 MMLU 上从 CoT 获得的总性能提升高达 95%归因于包含“”的题目或生成的输出。对于非数学问题我们没有找到任何特征来指示 CoT 何时会有帮助。 – 来源因此CoT 最多有助于解决数学问题但肯定不能帮助解锁 LLM 的推理潜力。尽管如此CoT 被吹捧为万能药并被认为是最新一代 LLM 推理能力的基石。最近一代 LLM 的推理能力。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9ef378d1551d6331b80df74472f851d0.png“CoT 文献的元分析。在两组结果中数学和其他类型的符号推理是始终从 CoT 中看到显著改进的领域红色虚线表示实验中 CoT 的平均改进)” - 图片来源这里CoT 或不 CoTLLM 真的需要思维链吗这些结果似乎排除了常识推理能力但这并不排除其他形式的推理。LLMs 真的具备数学推理能力吗虽然数学推理似乎在 LLM 的推理中是强项但一些研究表明LLM 仅仅识别模式。换句话说它们在寻找模式但并没有真正理解这些符号。根据一些作者[6]的说法LLM 在数学中不具备形式推理能力因为它们无法制定计划计划被定义为一系列行动策略当执行时将使智能体从某个初始状态转移到期望的世界状态。因此没有这个计划模型无法解决问题除非它仅仅映射在训练中看到的模式https://www.lakera.ai/blog/what-is-in-context-learning。甚至在某些情况下是用户无意识地引导 LLM 到达解决方案[7]Clever Hans 效应其中 LLM 仅仅是生成猜测而循环中的人类凭借对正确与错误解决方案的了解在引导 LLM - 即使他们没有故意这样做。如果有的话确保准确性的信用和责任完全落在循环中的人类身上。 –来源https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/15b0a028879cd6b2f287a840a95eebb3.png“LLM 声称的推理能力有时是由于循环中人类的无意识的有益迭代提示” - 图片来源这里总结到目前为止LLM 推理的支持者认为我们观察到今天的行为有几个原因。我们已经展示了有一些研究显示这些主张是矛盾的。尽管这些研究声称它们不进行推理但 LLM 在所有基准测试中都表现出惊人的能力甚至通过了对人类来说复杂的测试。因此我们提供的证据似乎更偏向于理论证据而不是 LLM 解决数学和复杂问题的实验证据。是人类对被 LLM 打败的呐喊还是有什么地方出了问题捕捉到正在抄袭的学生当然看到 LLM 表现得像博士生一样这肯定让人感到恼火o1-preview 模型被设计用来处理具有挑战性的任务通过投入更多时间思考和细化其回答类似于人们如何处理复杂问题。在测试中这种方法使模型的表现接近物理学、化学和生物学等领域的博士生水平。 – 来源除去恼火问题在于如何衡量这些模型的能力。我们可能没有以正确的方式衡量它们的推理技能现在是时候使用新的系统了。这些模型都是在与 GSM8K小学数学 8K数据集相同的基准上测试的该数据集提供了复杂的算术问题但存在数据泄露的风险考虑到训练 LLM 使用了数十亿个 token模型可能已经在训练中看到了答案。此外它只提供了一个固定问题集上的单一指标给我们关于 LLM 推理能力的信息很少有趣的事实一个 LLM 可以正确回答问题但明显推理错误。最后这个数据集是静态的不允许我们改变条件。在这项工作中他们提出一个新的基准数据集 GSM-Symbolic [9]其中使用符号模板生成不同的问题。这个数据集允许调整问题的难度并在测试数据集时提供更精细的控制。这个数据集几乎与测试推理所用的数据集相同。问题只是经过修改使得统计模式匹配变得困难。如果 LLM 具备推理能力它应该能够轻松解决问题但如果它无法泛化它将失败得很惨。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ce9cdad17e818188081ff24d8352a4d5.pngGSM-Symbolic 模板创建过程的插图。图片来源此处在测试最先进的 LLMs 时作者们发现语言模型中没有任何形式推理的证据。模型在数值值变化时表现不稳定并且随着问题复杂性的增加其能力急剧下降。举例来说如果添加到问题中的看似相关的陈述实际上与推理和结论无关模型很容易被欺骗。相反模型会考虑这些陈述并诱导出错误。根据这项研究模型并不理解数学概念而是试图将这些陈述转换为操作。作者们认为这是因为他们的训练数据集中包含了需要转换为数学操作的相关示例。例如我们观察到的一个常见情况是模型将关于“折扣”的陈述解释为“乘法”无论上下文如何。这引发了这样的问题这些模型是否真正充分理解了数学概念。 – 来源https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cba466eaa9675978bb526b999ff9974c.png图片来源此处这也是模型试图寻找这些模式的一个迹象即使它们只是背景噪声。当噪声增加寻找模式或将它们一致地映射到解决方案变得更加困难时性能会急剧下降 [10]。这也适用于在 CoT如 ChatGPT4-O1上训练的 LLMs。这进一步表明 CoT 并没有真正提高推理能力。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a9c0220f4b80b22969c7a8d65a819b30.png图片来源此处结束语在本文中我们讨论了这场伟大辩论LLMs 是否能够进行推理或者至少某种形式的推理我们所展示的研究结果并不一致并表明大型语言模型LLMs是复杂的模式匹配机器。总之这些研究表明LLMs 使用大量标记进行训练存在数据污染主要基准的风险。即使模型没有看到数学问题它可能已经看到了许多类似的例子。考虑到它们庞大的知识和天生的发现模式的能力归功于注意力机制和上下文学习)它们能够解决大多数问题。它们对问题变化、标记偏差和噪声的敏感性表明LLMs 并不具备形式推理的能力。新的研究结果证实即使使用先进的提示技术模型仍然容易受到噪声和无关或可能具有误导性信息的影响。这些模型能够进行模式匹配但似乎并不理解任何解决问题的数学概念。这些结果并不质疑 LLMs 的有用性而是批评了 LLMs 具有推理能力的假设。它们表明可以将 LLMs 视为具有非凡记忆但无法推理的机器或迄今为止最复杂的机械鹦鹉。这并不贬低创造它们所需的技术奇迹而是赞美人类智慧的奇妙。可能还需要进一步的研究来更好地解释 LLMs 的能力和能够推理的新模型架构。你怎么看你认为 LLMs 具有推理能力吗请在评论中告诉我如果你对此感兴趣你可以查找我的其他文章你还可以在*LinkedIn上与我联系或找到我。请查看这个仓库**其中包含每周更新的 ML AI 新闻。我开放合作和项目你可以在 LinkedIn 上联系我。你还可以免费订阅以便在发布新故事时收到通知。*每当 Salvatore Raieli 发布文章时都会收到电子邮件通知。以下是我 GitHub 仓库的链接我在那里收集与机器学习、人工智能等相关代码和资源。GitHub – SalvatoreRa/tutorial: 有关机器学习、人工智能、数据科学等教程或者你可能对我的最近的文章感兴趣权力腐败LLMs 中的等级制度、说服和反社会行为通过超自然之镜LLMs 是否像人类大脑一样记忆欺骗我为什么大型语言模型是结构性骗子永远学习为什么 AI 难以适应新的挑战参考文献这里是我在撰写本文时参考的主要参考文献列表仅引用了文章的第一作者。姜江2024 年一瞥标记偏差大型语言模型尚未成为真正的推理者链接石2023 年大型语言模型容易被无关的上下文所分散链接沙夫2023 年大型语言模型的涌现能力是海市蜃楼吗链接Wei, 2022, 思维链提示在大型语言模型中引发推理链接Sprague, 2024, 是否采用 CoT思维链主要帮助数学和符号推理链接Valmeekam, 2023, PlanBench评估大型语言模型在规划和关于变化推理上的可扩展基准Kambhampati, 2024, 大型语言模型能否推理和规划链接Razeghi, 2022, 预训练词频对少量样本推理的影响链接Mirzadeh, 2024, GSM-Symbolic理解大型语言模型中数学推理的局限性链接Valmeekam, 2024, LLM 仍然无法规划LRM 可以吗对 OpenAI 的 o1 在 PlanBench 上的初步评估链接Lu, 2022, 令人惊叹的有序提示及其获取方法克服少量样本提示顺序敏感性链接Zhao, 2021, 使用前校准提高语言模型少量样本性能链接Rogers, 2024, 职位LLM 研究中的关键主张有长长的脚注链接
天才综合征:模式识别等同于智能吗?
发布时间:2026/5/20 10:40:27
原文towardsdatascience.com/the-savant-syndrome-is-pattern-recognition-equivalent-to-intelligence-242aab928152|LLM|INTELLIGENCE|REASONING|https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e8958ca33aefcef8e13d9c07d01b8f8f.png由作者使用 DALL-E 生成的图像我几乎从未见过一个能够推理的数学家。 – 柏拉图推理得出结论但不一定使结论确定除非心灵通过经验之路发现它。 – 罗杰·培根大型语言模型LLMs 已展现出非凡的能力尤其是在自然语言处理NLP的经典任务中如问答。令人惊讶的是它们在需要推理的复杂任务如编码和数学中也表现出改进。这些能力长期以来一直被认为是人类独有的。因此声称 LLMs 可以解决需要推理的任务引发了一场热烈的辩论。大型语言模型LLMs真的能推理吗或者它们只是复杂的模式匹配器推理能力对于使 AI 系统能够与人类互动并在关键任务中使用至关重要。推理需要你进行逻辑推理进行推理解决问题并能够从可用信息中做出决策。这些技能对于真正帮助我们进行科学发现、医疗保健、金融和教育等领域的模型也是必需的。随着新模型的发布这场辩论变得更加激烈。随着OpenAI GPT-4o1的发布人们对训练具有思维链COT的模型以提高推理能力产生了浓厚兴趣。经过 COT 训练的 LLMs 的结果导致一些公司宣称今天的 LLMs 具有推理能力通用人工智能AGI正在变得更近。今天我们有一个激烈的辩论一方面公司和一些研究人员声称模型具有推理能力另一方面其他人将大型语言模型LLMs定义为随机的鹦鹉。对 Transformer 的挽歌OpenAI 的新“推理”AI 模型来了它们能经受住炒作吗在这篇文章中我们将专注于尝试回答以下问题推理意味着什么LLMs 具有推理能力还是只是鹦鹉我们真的以正确的方式衡量推理吗推理的定义是什么推理是基于可用信息、逻辑和分析得出结论或做出决策的基本认知过程。根据亚里士多德的观点推理可以分为两种类型演绎推理从一般原则推导出具体结论。归纳推理基于观察的概括。很长时间以来人们认为只有人类能够进行推理。今天已经证明灵长类动物、章鱼和鸟类也表现出基本的推理形式例如做出决策或解决问题。通常推理被认为是解决复杂问题或做出决策的过程。复杂的问题解决需要识别问题将其分解为子问题寻找模式然后选择最佳解决方案。决策制定同样需要识别问题和模式并在选择最佳解决方案之前评估替代方案。这些定义的问题在于它们并不完全清晰。此外根据这些定义LLMs 也可以被认为是具有推理能力的。LLM 是否能够进行推理在衡量推理技能的基准测试中如GLUE、SuperGLUE和HellaswagLLMs 的表现超过了人类。对一些人来说这意味着 LLMs 可以进行推理并得出逻辑结论。这些新的推理能力主要归因于两个因素大型语言模型LLMs在所有针对推理的基准测试中都表现出推理能力。随着参数、标记数量和计算预算的增加出现了新的属性。使用如 CoT概念图技术等技术允许模型发挥其潜力。因此如果我们想声称 LLMs 无法进行推理我们必须挑战这些说法。LLM 在推理基准测试中的惊人结果当然当有人声称 LLMs 不具备推理能力时即将到来的通用人工智能AGI的支持者会回应“看看推理基准测试的结果。”用鸭子测试来比喻如果它解决问题的方式像人类做出决策的方式像人类在推理基准测试中获胜那么它很可能像人类一样进行推理。其他作者对此结论提出了质疑[1]。虽然从表面上看模型似乎能够进行复杂的推理但更深入地观察它们依赖于概率模式匹配而不是形式推理。强标记偏差表明模型依赖于输入中的表面模式而不是真正理解底层推理任务。 – 来源换句话说这些脆弱的表现表明当遇到与训练期间所见模式不同的新示例时LLMs无法泛化。因此改变示例中的标记会导致逻辑谬误因为模型无法再将示例映射到训练中看到的内容。因此模型对它们所测试的示例非常敏感且脆弱这可以解释为什么它们有时似乎表现出出色的推理能力有时又失败得非常明显。通过对示例标记的扰动这种脆弱性被突出显示导致大型语言模型LLM无法解决问题因此其“推理”依赖于这些标记并将它们映射到训练集中所见的内容。这一点通过训练数据中示例频率与测试性能之间的相关性得到证实[8]。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f9a4a903269ab8b4d73dfd1c930ce599.png“图论中的经典“二十五马”问题。顶部两个子图仅用于说明目的由 GPT-4o 生成 1通过将“马”这个名字改为“兔子”与问题的底层逻辑无关来展示这一概念。底部两个子图显示了 GPT-4 和 Claude 的实验结果其中由于动物名称和数量的扰动性能显著下降。” - 图片来源这里这种现象被称为提示敏感性对语义上等效于另一个提示的不同响应[11–12]。这表明模型对与训练文本更相似的提示响应更好。它们对噪声也很敏感[2]。事实上大型语言模型很容易被无关的上下文所分散注意力这会导致推理性能下降。此外即使是通过所有那些提示技术也无法消除噪声效应这些技术专门用于提高推理能力。这表明通过噪声扰动的映射会影响模型在记忆中寻找模式的能力。智力是一种涌现属性对于许多人来说智能是一种涌现属性。生物系统自然倾向于变得更加复杂并获取新的能力否则它们将被进化压力淘汰。因此进化过程导致越来越智能或更专业的人类的出现。因此智能在这种压力下进化。这显然需要资源所以大脑增长到支持智能的关键水平。对于一些人来说损失函数在模式训练中充当进化压力。因此一旦模型拥有了足够的“神经元”它们就可以发展推理技能在技术术语中推理属性随着规模的出现而出现。如前所述这种推理能力的增强归因于规模的增加无论是参数还是训练标记。然而对于几位作者来说推理能力是一种涌现属性需要达到一定的参数阈值才能出现。然而后来的研究表明LLM 中的涌现属性可能是测量误差因此整个理论与推理的涌现[3, 13]有关。人工智能中的涌现能力我们是在追逐一个神话吗有时噪音是音乐有益的噪音如何改善你的 RAGCoT 并非一切根据其他作者的观点LLM 具有推理能力但需要解锁。因此思维链 (CoT) 提示有助于模型通过中间推理解锁其潜力从而引导它在算术问题中找到正确答案[4]。几周前一篇文章质疑了 CoT 的实际益处[5]在 MMLU 上从 CoT 获得的总性能提升高达 95%归因于包含“”的题目或生成的输出。对于非数学问题我们没有找到任何特征来指示 CoT 何时会有帮助。 – 来源因此CoT 最多有助于解决数学问题但肯定不能帮助解锁 LLM 的推理潜力。尽管如此CoT 被吹捧为万能药并被认为是最新一代 LLM 推理能力的基石。最近一代 LLM 的推理能力。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9ef378d1551d6331b80df74472f851d0.png“CoT 文献的元分析。在两组结果中数学和其他类型的符号推理是始终从 CoT 中看到显著改进的领域红色虚线表示实验中 CoT 的平均改进)” - 图片来源这里CoT 或不 CoTLLM 真的需要思维链吗这些结果似乎排除了常识推理能力但这并不排除其他形式的推理。LLMs 真的具备数学推理能力吗虽然数学推理似乎在 LLM 的推理中是强项但一些研究表明LLM 仅仅识别模式。换句话说它们在寻找模式但并没有真正理解这些符号。根据一些作者[6]的说法LLM 在数学中不具备形式推理能力因为它们无法制定计划计划被定义为一系列行动策略当执行时将使智能体从某个初始状态转移到期望的世界状态。因此没有这个计划模型无法解决问题除非它仅仅映射在训练中看到的模式https://www.lakera.ai/blog/what-is-in-context-learning。甚至在某些情况下是用户无意识地引导 LLM 到达解决方案[7]Clever Hans 效应其中 LLM 仅仅是生成猜测而循环中的人类凭借对正确与错误解决方案的了解在引导 LLM - 即使他们没有故意这样做。如果有的话确保准确性的信用和责任完全落在循环中的人类身上。 –来源https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/15b0a028879cd6b2f287a840a95eebb3.png“LLM 声称的推理能力有时是由于循环中人类的无意识的有益迭代提示” - 图片来源这里总结到目前为止LLM 推理的支持者认为我们观察到今天的行为有几个原因。我们已经展示了有一些研究显示这些主张是矛盾的。尽管这些研究声称它们不进行推理但 LLM 在所有基准测试中都表现出惊人的能力甚至通过了对人类来说复杂的测试。因此我们提供的证据似乎更偏向于理论证据而不是 LLM 解决数学和复杂问题的实验证据。是人类对被 LLM 打败的呐喊还是有什么地方出了问题捕捉到正在抄袭的学生当然看到 LLM 表现得像博士生一样这肯定让人感到恼火o1-preview 模型被设计用来处理具有挑战性的任务通过投入更多时间思考和细化其回答类似于人们如何处理复杂问题。在测试中这种方法使模型的表现接近物理学、化学和生物学等领域的博士生水平。 – 来源除去恼火问题在于如何衡量这些模型的能力。我们可能没有以正确的方式衡量它们的推理技能现在是时候使用新的系统了。这些模型都是在与 GSM8K小学数学 8K数据集相同的基准上测试的该数据集提供了复杂的算术问题但存在数据泄露的风险考虑到训练 LLM 使用了数十亿个 token模型可能已经在训练中看到了答案。此外它只提供了一个固定问题集上的单一指标给我们关于 LLM 推理能力的信息很少有趣的事实一个 LLM 可以正确回答问题但明显推理错误。最后这个数据集是静态的不允许我们改变条件。在这项工作中他们提出一个新的基准数据集 GSM-Symbolic [9]其中使用符号模板生成不同的问题。这个数据集允许调整问题的难度并在测试数据集时提供更精细的控制。这个数据集几乎与测试推理所用的数据集相同。问题只是经过修改使得统计模式匹配变得困难。如果 LLM 具备推理能力它应该能够轻松解决问题但如果它无法泛化它将失败得很惨。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ce9cdad17e818188081ff24d8352a4d5.pngGSM-Symbolic 模板创建过程的插图。图片来源此处在测试最先进的 LLMs 时作者们发现语言模型中没有任何形式推理的证据。模型在数值值变化时表现不稳定并且随着问题复杂性的增加其能力急剧下降。举例来说如果添加到问题中的看似相关的陈述实际上与推理和结论无关模型很容易被欺骗。相反模型会考虑这些陈述并诱导出错误。根据这项研究模型并不理解数学概念而是试图将这些陈述转换为操作。作者们认为这是因为他们的训练数据集中包含了需要转换为数学操作的相关示例。例如我们观察到的一个常见情况是模型将关于“折扣”的陈述解释为“乘法”无论上下文如何。这引发了这样的问题这些模型是否真正充分理解了数学概念。 – 来源https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cba466eaa9675978bb526b999ff9974c.png图片来源此处这也是模型试图寻找这些模式的一个迹象即使它们只是背景噪声。当噪声增加寻找模式或将它们一致地映射到解决方案变得更加困难时性能会急剧下降 [10]。这也适用于在 CoT如 ChatGPT4-O1上训练的 LLMs。这进一步表明 CoT 并没有真正提高推理能力。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a9c0220f4b80b22969c7a8d65a819b30.png图片来源此处结束语在本文中我们讨论了这场伟大辩论LLMs 是否能够进行推理或者至少某种形式的推理我们所展示的研究结果并不一致并表明大型语言模型LLMs是复杂的模式匹配机器。总之这些研究表明LLMs 使用大量标记进行训练存在数据污染主要基准的风险。即使模型没有看到数学问题它可能已经看到了许多类似的例子。考虑到它们庞大的知识和天生的发现模式的能力归功于注意力机制和上下文学习)它们能够解决大多数问题。它们对问题变化、标记偏差和噪声的敏感性表明LLMs 并不具备形式推理的能力。新的研究结果证实即使使用先进的提示技术模型仍然容易受到噪声和无关或可能具有误导性信息的影响。这些模型能够进行模式匹配但似乎并不理解任何解决问题的数学概念。这些结果并不质疑 LLMs 的有用性而是批评了 LLMs 具有推理能力的假设。它们表明可以将 LLMs 视为具有非凡记忆但无法推理的机器或迄今为止最复杂的机械鹦鹉。这并不贬低创造它们所需的技术奇迹而是赞美人类智慧的奇妙。可能还需要进一步的研究来更好地解释 LLMs 的能力和能够推理的新模型架构。你怎么看你认为 LLMs 具有推理能力吗请在评论中告诉我如果你对此感兴趣你可以查找我的其他文章你还可以在*LinkedIn上与我联系或找到我。请查看这个仓库**其中包含每周更新的 ML AI 新闻。我开放合作和项目你可以在 LinkedIn 上联系我。你还可以免费订阅以便在发布新故事时收到通知。*每当 Salvatore Raieli 发布文章时都会收到电子邮件通知。以下是我 GitHub 仓库的链接我在那里收集与机器学习、人工智能等相关代码和资源。GitHub – SalvatoreRa/tutorial: 有关机器学习、人工智能、数据科学等教程或者你可能对我的最近的文章感兴趣权力腐败LLMs 中的等级制度、说服和反社会行为通过超自然之镜LLMs 是否像人类大脑一样记忆欺骗我为什么大型语言模型是结构性骗子永远学习为什么 AI 难以适应新的挑战参考文献这里是我在撰写本文时参考的主要参考文献列表仅引用了文章的第一作者。姜江2024 年一瞥标记偏差大型语言模型尚未成为真正的推理者链接石2023 年大型语言模型容易被无关的上下文所分散链接沙夫2023 年大型语言模型的涌现能力是海市蜃楼吗链接Wei, 2022, 思维链提示在大型语言模型中引发推理链接Sprague, 2024, 是否采用 CoT思维链主要帮助数学和符号推理链接Valmeekam, 2023, PlanBench评估大型语言模型在规划和关于变化推理上的可扩展基准Kambhampati, 2024, 大型语言模型能否推理和规划链接Razeghi, 2022, 预训练词频对少量样本推理的影响链接Mirzadeh, 2024, GSM-Symbolic理解大型语言模型中数学推理的局限性链接Valmeekam, 2024, LLM 仍然无法规划LRM 可以吗对 OpenAI 的 o1 在 PlanBench 上的初步评估链接Lu, 2022, 令人惊叹的有序提示及其获取方法克服少量样本提示顺序敏感性链接Zhao, 2021, 使用前校准提高语言模型少量样本性能链接Rogers, 2024, 职位LLM 研究中的关键主张有长长的脚注链接