Agent思维模式ReAct、Plan and Execute、ReflectionAgent 处理任务时的不同推理与执行策略概念全称特点ReActReasoningAndAct边规划、边执行Plan and Execute-先规划、后执行Reflection-反思机制ReActReasoning and ActReAct 是Reasoning and Act的缩写本质上是一种**边规划边执行**的混合模式交替进行推理Reasoning与行动Acting交替执行即时调整根据当前执行结果动态调整后续计划适合复杂任务能够处理需要综合分析和多步骤执行的问题处理流程用户输入 → LLM分析问题 ↓ 推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ... ↓ 返回结果Plan and Execute先规划后执行与 ReAct 不同Plan and Execute 采用**两阶段分离**的策略阶段一先完整规划整个任务流程阶段二再按计划顺序执行更适合任务边界清晰、步骤可预见的场景用户输入 → 完整规划 (Plan) ↓ 按顺序执行 (Execute) ↓ 返回结果Reflection反思Reflection 即反思是 Agent 的一种自我修正机制对执行结果进行评估识别错误或不足调整策略后重新执行维度ReActPlan and ExecuteReflection执行顺序边想边做先想后做做完后想灵活性高中需要其他模式配合计算成本中低视情况而定适用场景动态、复杂任务明确、线性任务错误修正、自我优化Agent EvaluationEvaluation-评估是对Agent进行系统性评价的过程由于Agent基于LLM生成答案其评估标准并非放之四海而皆准而是需要根据不同的应用场景和落地方向进行针对性设计。为什么要评估评估的目的不仅仅是区分能用和不能用这通常是暂时性判断更核心的目的是通过评估进行调优。具体来说发现问题所在指导进一步优化方向建立更细致、更深入的评估流程这一思维方式适用于所有软件工程类和科研类项目。例如一个可运行的游戏虽然功能正常但仍可优化代码降低CPU/内存占用、减少网络流量消耗。评估的两种类型端对端评估从用户视角出发评估Agent从输入到输出是否合格。这是基础层面的判断如果连基本匹配都做不到Agent本身就不可用。非端对端评估步骤级评估针对工作流中的具体步骤进行分析和调优。典型工作流包括阶段描述分析LLM分析用户输入理解用户目的/企图Planner规划执行步骤1、2、3、4、5…执行逐个执行每个步骤如RAG查询、搜索网页、调用工具、写本地文件等注如果是ReAct等推理模式可能会有更多的循环由LLM自主决策下一步。如何做评估最简单的端对端评估可以用表格形式呈现序号InputOutputGround Truth标准答案Score评分1…………2…………3…………评估的具体方式不必拘泥重点是建立一套符合落地场景的具体标准用以判断Agent的输出是否正确。核心要点评估标准需要根据应用场景定制评估的真正目的是调优而非简单的通过/失败判断端对端评估看整体非端对端评估看细节两种评估结合使用才能全面提升Agent质量
Agent思维模式 | 评估
发布时间:2026/6/5 23:56:38
Agent思维模式ReAct、Plan and Execute、ReflectionAgent 处理任务时的不同推理与执行策略概念全称特点ReActReasoningAndAct边规划、边执行Plan and Execute-先规划、后执行Reflection-反思机制ReActReasoning and ActReAct 是Reasoning and Act的缩写本质上是一种**边规划边执行**的混合模式交替进行推理Reasoning与行动Acting交替执行即时调整根据当前执行结果动态调整后续计划适合复杂任务能够处理需要综合分析和多步骤执行的问题处理流程用户输入 → LLM分析问题 ↓ 推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ... ↓ 返回结果Plan and Execute先规划后执行与 ReAct 不同Plan and Execute 采用**两阶段分离**的策略阶段一先完整规划整个任务流程阶段二再按计划顺序执行更适合任务边界清晰、步骤可预见的场景用户输入 → 完整规划 (Plan) ↓ 按顺序执行 (Execute) ↓ 返回结果Reflection反思Reflection 即反思是 Agent 的一种自我修正机制对执行结果进行评估识别错误或不足调整策略后重新执行维度ReActPlan and ExecuteReflection执行顺序边想边做先想后做做完后想灵活性高中需要其他模式配合计算成本中低视情况而定适用场景动态、复杂任务明确、线性任务错误修正、自我优化Agent EvaluationEvaluation-评估是对Agent进行系统性评价的过程由于Agent基于LLM生成答案其评估标准并非放之四海而皆准而是需要根据不同的应用场景和落地方向进行针对性设计。为什么要评估评估的目的不仅仅是区分能用和不能用这通常是暂时性判断更核心的目的是通过评估进行调优。具体来说发现问题所在指导进一步优化方向建立更细致、更深入的评估流程这一思维方式适用于所有软件工程类和科研类项目。例如一个可运行的游戏虽然功能正常但仍可优化代码降低CPU/内存占用、减少网络流量消耗。评估的两种类型端对端评估从用户视角出发评估Agent从输入到输出是否合格。这是基础层面的判断如果连基本匹配都做不到Agent本身就不可用。非端对端评估步骤级评估针对工作流中的具体步骤进行分析和调优。典型工作流包括阶段描述分析LLM分析用户输入理解用户目的/企图Planner规划执行步骤1、2、3、4、5…执行逐个执行每个步骤如RAG查询、搜索网页、调用工具、写本地文件等注如果是ReAct等推理模式可能会有更多的循环由LLM自主决策下一步。如何做评估最简单的端对端评估可以用表格形式呈现序号InputOutputGround Truth标准答案Score评分1…………2…………3…………评估的具体方式不必拘泥重点是建立一套符合落地场景的具体标准用以判断Agent的输出是否正确。核心要点评估标准需要根据应用场景定制评估的真正目的是调优而非简单的通过/失败判断端对端评估看整体非端对端评估看细节两种评估结合使用才能全面提升Agent质量