【高被引】【ICLR2023】ReAct: Synergizing Reasoning and Acting in Language Models

发布时间：2026/5/26 22:23:04

https://react-lm.github.io/https://github.com/ysymyth/ReAct摘要尽管大型语言模型（LLM）在语言理解和交互式决策制定的任务中展现出了令人印象深刻的性能，但其推理（如思维链提示）和行动（如行动方案生成）的能力主要被作为独立的研究主题进行探讨。在本文中，我们探索使用LLM以交错的方式生成推理轨迹和任务特定的行动，这使得两者之间能够产生更强的协同效应：推理轨迹帮助模型诱导、跟踪和更新行动方案以及处理异常，而行动则使其能够与外部来源（如知识库或环境）交互并从中收集额外信息。我们将提出的方法（名为ReAct）应用于一系列不同的语言和决策制定任务，并展示了其相较于最先进基线的有效性，同时还提高了人类可解释性和可信度。具体而言，在问答（HotpotQA）和事实验证（Fever）任务上，通过与一个简单的维基百科API交互，ReAct克服了思维链推理中常见的幻觉和错误传播问题，并生成了比没有推理轨迹的基线更具可解释性的人类式任务解决轨迹。此外，在两个交互式决策制定基准（ALFWorld 和 WebShop）上，ReAct 在仅使用一两个上下文示例进行提示的情况下，其绝对成功率分别比模仿学习和强化学习方法高出34%34\%34%和10%10\%10%。1 引言人类智能的一个独特特征是能够无缝地将面向任务的行动与言语推理（或内部言语，Alderson-Day Fernyhough, 2015）结合起来，这在理论上被认为在人类认知中扮演着重要角色，有助于实现自我调节或策略制定（Vygotsky, 1987; Luria, 1965; Fernyhough, 2010）以及维持工作记忆（Baddeley, 1992）。以在厨房烹饪一道菜为例。在两个具体行动之间，我们可能会用语言进行推理，以跟踪进度（“现在所有东西都切好了，我应该加热锅里的水”），根据情况处理异常或调整计划（“我没有盐，那就用酱油和胡椒代替”），并意识到何时需要外部信息（“我怎么准备面团？让我上网查一下”）。我们还可能采取行动（打开烹饪书阅读食谱、打开冰箱、检查食材）来支持推理并回答问题（“我现在能做什么菜？”）。这种“行动”和“推理”之间的紧密协同使得人类能够快速学习新任务，并在即使面对前所未见的情况或信息不确定性的情况下，也能做出稳健的决策或推理。最近的结果暗示了在自主系统中结合言语推理和交互式决策制定的可能性。一方面，经过适当提示的大型语言模型（LLM）已经展现出执行多步推理轨迹以从算术、常识和符号推理任务中得出答案的新兴能力（Wei et al., 2022）。然而，这种“思维链”推理是一个静态的黑盒，因为模型使用其内部表示来生成思考，并未与外部世界建立联系，这限制了其被动反应式推理或更新知识的能力。这可能导致推理过程中的事实幻觉和错误传播等问题（图1 (1b)）。另一方面，最近的工作探索了使用预训练语言模型在交互式环境中进行规划和行动（Ahn et al., 2022; Nakano et al., 2021; Yao et al., 2020; Huang et al., 2022a），重点是通过语言先验预测行动。这些方法通常将多模态观察转换为文本，使用语言模型生成特定领域的行动或计划，然后使用控制器选择或执行它们。然而，除了 Huang et al. (2022b) 进行了一种有限形式的言语推理以重申关于当前状态的空间事实外，它们并未使用语言模型来抽象地推理高层次目标或维持支持行动的工作记忆。除了这种与几个物体交互的简单具身任务之外，还没有研究探讨推理和行动如何以协同的方式结合用于通用任务解决，以及这种结合是否能比单独推理或行动带来系统性的好处。在这项工作中，我们提出了 ReAct，一种结合语言模型进行推理和行动以解决多样化语言推理和决策制定任务的通用范式（图1）。ReAct 提示 LLM 以交错的方式生成与任务相关的言语推理轨迹和行动，这使得模型能够执行动态推理，以创建、维护和调整用于行动的高层计划（推理以行动），同时与外部环境（例如维基百科）交互，将额外信息纳入推理（行动以推理）。我们对 ReAct 和四个不同基准上最先进的基线进行了实证评估：问答（HotPotQA, Yang et al., 2018）、事实验证（Fever, Thorne et al., 2018）、基于文本的游戏（ALFWorld, Shridhar et al., 2020b）和网页导航（WebShop, Yao et al., 2022）。对于 HotPotQA 和 Fever，通过访问模型可以与之交互的维基百科 API，ReAct 优于普通的行动生成模型，同时与思维链推理（CoT）(Wei et al., 2022) 相比也具有竞争力。总体上最好的方法是 ReAct 和 CoT 的组合，它允许在推理过程中同时使用内部知识和外部获取的信息。在 ALFWorld 和 WebShop 上，两样本甚至一样本的 ReAct 提示就能够超越在103∼10510^{3} \sim 10^{5}103∼105个任务实例上训练的模仿或强化学习方法，成功率分别绝对提高了34%34\%34%和10%10\%10%。我们还通过展示与仅有行动的控制基线相比的一致优势，证明了稀疏、多功能的推理在决策制定中的重要性。除了普遍适用性和性能提升外，推理和行动的结合还有助于提高模型在所有领域的可解释性、可信赖性和可诊断性，因为人类可以轻松区分来自模型内部知识与外部环境的信息，并检查推理轨迹以理解决策基础。总结来说，我们的主要贡献如下：(1) 我们引入了 ReAct，一种新颖的基于提示的范式，用于在语言模型中协同推理和行动以解决通用任务；(2) 我们在不同的基准上进行了广泛的实验，展示了 ReAct 在少样本学习设置下相对于先前单独执行推理或行动生成的方法的优势；(3) 我们提出了系统的消融实验和分析，以理解行动在推理任务中的重要性，以及推理在交互式任务中的重要性；(4) 我们分析了 ReAct在提示设置下的局限性（即推理和行动行为的支持有限），并进行了初步的微调实验，显示了 ReAct 通过额外训练数据改进的潜力。将 ReAct 扩展到更多任务上进行训练和操作，并将其与强化学习等互补范式相结合，可能进一步释放大型语言模型的潜力。2 REACT：协同推理 + 行动考虑一个智能体与环境交互以解决任务的通用设置。在时间步ttt，智能体从环境接收观察ot∈Oo_{t} \in \mathcal{O}ot∈O并根据某个策略π(at∣ct)\pi (a_{t} | c_{t})π(at∣ct)采取行动at∈Aa_{t} \in \mathcal{A}

在Ubuntu虚拟机中搭建YOLOv8开发环境：从零开始的避坑指南

1. 为什么选择Ubuntu虚拟机搭建YOLOv8？ 最近两年，我帮团队搭建过不下20次YOLOv8环境，其中80%的问题都出在环境配置环节。特别是当你的主力机是Windows系统时，Ubuntu虚拟机就像个安全的"实验沙盒"——既能避免污染主机环…

2026/5/27 6:21:29 阅读更多

AnimateDiff开源贡献：PyTorch核心代码解读与修改

AnimateDiff开源贡献：PyTorch核心代码解读与修改 1. 引言如果你对AI视频生成感兴趣，可能已经听说过AnimateDiff这个强大的文生视频框架。它能够将静态的文字描述转化为生动的视频内容，效果相当惊艳。但你是否想过，这个看似神秘…

2026/5/25 21:16:27 阅读更多

Yuxi-Know部署与运维深度指南：从零到生产环境的完整解决方案

Yuxi-Know部署与运维深度指南：从零到生产环境的完整解决方案【免费下载链接】Yuxi-Know 基于大模型 RAG 知识库与知识图谱的问答平台。Llamaindex VueJS Flask Neo4j。大模型适配 OpenAI、国内主流大模型平台的模型调用、本地 vllm 部署。项目地址: https://…

2026/5/25 8:18:57 阅读更多

Coze智能体开发：平台架构

扣子为 AI 应用（包括智能体）开发人员提供了一站式全链路的 AI 应用搭建能力，包括应用开发、测评、监控和丰富的发布渠道。如下图所示，空间是扣子编程的最顶层的资源组织方式，通过工作空间对开发资源进行隔离。空间&…

2026/5/27 9:59:15 阅读更多

5分钟掌握Lightweight_OpenPose模型转换：ONNX格式导出与推理优化技巧

5分钟掌握Lightweight_OpenPose模型转换：ONNX格式导出与推理优化技巧【免费下载链接】Lightweight_OpenPose 项目地址: https://ai.gitcode.com/hf_mirrors/PyTorch-NPU/Lightweight_OpenPose 想要快速将PyTorch-NPU的Lightweight_OpenPose模型部署到不同平…

2026/5/27 9:58:32 阅读更多

魔兽争霸3全面性能优化工具：5步解决画面变形和帧率限制问题

魔兽争霸3全面性能优化工具：5步解决画面变形和帧率限制问题【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还在为经典游戏魔兽争霸…

2026/5/27 9:57:30 阅读更多

Atom-7B-Chat-openmind与Llama2对比：中文能力提升的10个关键点

Atom-7B-Chat-openmind与Llama2对比：中文能力提升的10个关键点【免费下载链接】Atom-7B-Chat-openmind 项目地址: https://ai.gitcode.com/hf_mirrors/jeffding/Atom-7B-Chat-openmind 在大语言模型快速发展的今天，中文自然语言处理能力成为衡量…

2026/5/27 9:56:47 阅读更多

WizardLM-13B-Uncensored微调教程：如何定制专属AI助手

WizardLM-13B-Uncensored微调教程：如何定制专属AI助手【免费下载链接】WizardLM-13B-Uncensored 项目地址: https://ai.gitcode.com/hf_mirrors/cognitivecomputations/WizardLM-13B-Uncensored WizardLM-13B-Uncensored是一款强大的开源AI模型&#xff0c…

2026/5/27 9:55:44 阅读更多

小米第一季营收991亿：净利47亿再启动200亿股份回购计划

雷递网雷建平 5月26日在经过连续多个季度的业绩高速增长后，小米集团（HK01810）在2026年第一季度发展遭遇到不小挑战。小米集团今日发布2026年第一季度业绩公告。财报显示，小米2026年第一季度营收991亿元，较上年同期的1…

2026/5/27 9:55:44 阅读更多

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？ 在嵌入式GUI开发中，贝塞尔曲线是实现流畅动画和优雅界面的核心工具。但许多开发者在使用LVGL绘制曲线时，总会遇到令人头疼的锯齿和毛刺问题。这背后隐藏着嵌入式设备特有的…

2026/5/27 0:00:16 阅读更多

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

自动化验证码识别实战：Burpsuite与ddddocr的高效联动方案验证码机制作为现代Web应用的基础安全防线，其对抗自动化攻击的能力直接影响系统安全性。但在安全测试领域，验证码往往成为效率瓶颈——传统手工识别方式让渗透测试人员每天浪费数小时在…

2026/5/27 0:00:36 阅读更多

中国AI岗位暴涨12倍，13种你没听过的AI岗位

2026年，中国AI岗位数量同比增长12倍，AI科学家月薪高达13.7万，高性能计算工程师出现“7个岗位抢1个人”的荒诞场面。与此同时，数据录入、基础财务分析、一线客服等岗位大幅下降。全球范围内，AI/ML岗位招聘量同比增长88%…

2026/5/27 0:03:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/27 3:41:47 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/27 3:04:04 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/27 2:28:22 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章