Agent思维模式 | 评估

发布时间：2026/6/5 23:56:38

Agent思维模式ReAct、Plan and Execute、ReflectionAgent 处理任务时的不同推理与执行策略概念全称特点ReActReasoningAndAct边规划、边执行Plan and Execute-先规划、后执行Reflection-反思机制ReActReasoning and ActReAct 是Reasoning and Act的缩写本质上是一种**边规划边执行**的混合模式交替进行推理Reasoning与行动Acting交替执行即时调整根据当前执行结果动态调整后续计划适合复杂任务能够处理需要综合分析和多步骤执行的问题处理流程用户输入 → LLM分析问题 ↓ 推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ... ↓ 返回结果Plan and Execute先规划后执行与 ReAct 不同Plan and Execute 采用**两阶段分离**的策略阶段一先完整规划整个任务流程阶段二再按计划顺序执行更适合任务边界清晰、步骤可预见的场景用户输入 → 完整规划 (Plan) ↓ 按顺序执行 (Execute) ↓ 返回结果Reflection反思Reflection 即反思是 Agent 的一种自我修正机制对执行结果进行评估识别错误或不足调整策略后重新执行维度ReActPlan and ExecuteReflection执行顺序边想边做先想后做做完后想灵活性高中需要其他模式配合计算成本中低视情况而定适用场景动态、复杂任务明确、线性任务错误修正、自我优化Agent EvaluationEvaluation-评估是对Agent进行系统性评价的过程由于Agent基于LLM生成答案其评估标准并非放之四海而皆准而是需要根据不同的应用场景和落地方向进行针对性设计。为什么要评估评估的目的不仅仅是区分能用和不能用这通常是暂时性判断更核心的目的是通过评估进行调优。具体来说发现问题所在指导进一步优化方向建立更细致、更深入的评估流程这一思维方式适用于所有软件工程类和科研类项目。例如一个可运行的游戏虽然功能正常但仍可优化代码降低CPU/内存占用、减少网络流量消耗。评估的两种类型端对端评估从用户视角出发评估Agent从输入到输出是否合格。这是基础层面的判断如果连基本匹配都做不到Agent本身就不可用。非端对端评估步骤级评估针对工作流中的具体步骤进行分析和调优。典型工作流包括阶段描述分析LLM分析用户输入理解用户目的/企图Planner规划执行步骤1、2、3、4、5…执行逐个执行每个步骤如RAG查询、搜索网页、调用工具、写本地文件等注如果是ReAct等推理模式可能会有更多的循环由LLM自主决策下一步。如何做评估最简单的端对端评估可以用表格形式呈现序号InputOutputGround Truth标准答案Score评分1…………2…………3…………评估的具体方式不必拘泥重点是建立一套符合落地场景的具体标准用以判断Agent的输出是否正确。核心要点评估标准需要根据应用场景定制评估的真正目的是调优而非简单的通过/失败判断端对端评估看整体非端对端评估看细节两种评估结合使用才能全面提升Agent质量

从抽检到全检！光子精密闪测仪助力动力电池盖板高精度尺寸检测

在锂电工厂智能化改造大趋势下，从人工抽检升级为全项全检是品质管控必然方向，国产设备厂商光子精密依托自研 QM 一键闪测仪，凭借多个落地案例稳步提升市场认可度，为电芯、盖板加工工厂定制工业测量全场景解决方案，切实…

2026/6/5 23:56:18 阅读更多

万字长文!解读claude code的上下文压缩，结合源码深度分析

源码我是从 https://github.com/alex000kim/claude-code/tree/main/src 下载的上下文压缩的实现位置如下先来说说为什么需要上下文压缩。核心原因很简单：所有大语言模型都有最大上下文 Token 限制（Context Window）。如果用户在同一个会话…

2026/6/5 23:56:18 阅读更多

为什么92%的AI协作工具仍在裸奔？——深度逆向37款主流工具的数据流向图谱

更多请点击： https://intelliparadigm.com 第一章：AI协作工具数据隐私保护的现状与危机当前，主流AI协作工具（如Notion AI、Microsoft Copilot、Slack with AI Assistants）在提升团队效率的同时，正悄然将大…

2026/6/5 23:54:37 阅读更多

CodeGraph：让 AI Coding Agent 先查本地代码图谱

AI coding agent 修改代码时，最常见的低效动作是反复搜索、打开文件、追依赖、再搜索、再打开文件。每一次工具调用都会消耗 token 和时间，也会增加 Agent 在长任务里迷路的概率。colbymchenry/codegraph 的思路是：把代码库预先索引成本地知识图谱，让 Agent 在需要理解项目…

2026/6/6 1:14:59 阅读更多

终极指南：5分钟自动化解决Mac Boot Camp驱动部署难题

终极指南：5分钟自动化解决Mac Boot Camp驱动部署难题【免费下载链接】brigadier Fetch and install Boot Camp ESDs with ease. 项目地址: https://gitcode.com/gh_mirrors/bri/brigadier 还在为Mac安装Windows后繁琐的驱动安装而烦恼吗？Brigadi…

2026/6/6 1:12:58 阅读更多

MioSub：全自动字幕生成软件，下载转录翻译压制一条龙

给一个30分钟视频做字幕，通常要在五六个工具之间来回倒腾。MioSub 把「下载视频、语音转写、AI翻译、时间轴对齐、字幕压制」这条流水线缝合成了一键操作。30分钟视频8分钟出成品。真懂上下文不是逐句硬翻。MioSub会提取术语表，记住角色名、专有名词&…

2026/6/6 1:11:37 阅读更多

第P7周：马铃薯病害识别（VGG-16复现）

「👉声明」文为「365天深度学习训练营」内部文章一、前期准备 1. 设置GPU 如果设备上支持GPU就使用GPU,否则使用CPU import torch import torch.nn as nn import torchvision.transforms as transforms import torchvision from torchvision import transforms, da…

2026/6/6 1:11:37 阅读更多

一米向新赋能新质——一米臻选APP上线暨新质经济发展论坛在杭举行

2026/6/6 1:11:16 阅读更多

小程序毕设项目：基于微信小程序的博物馆文创产品销售推荐系统基于springboot+微信小程序的博物馆文创系统的设计与实现 (源码+文档，讲解、调试运行，定制等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/6 1:10:15 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/5 9:28:46 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/5 7:30:31 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/5 9:28:45 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/5 9:28:45 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/5 9:28:42 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/5 9:28:45 阅读更多

相关文章

从抽检到全检！光子精密闪测仪助力动力电池盖板高精度尺寸检测

万字长文!解读claude code的上下文压缩，结合源码深度分析

为什么92%的AI协作工具仍在裸奔？——深度逆向37款主流工具的数据流向图谱

CodeGraph：让 AI Coding Agent 先查本地代码图谱

终极指南：5分钟自动化解决Mac Boot Camp驱动部署难题

MioSub：全自动字幕生成软件，下载转录翻译压制一条龙

第P7周：马铃薯病害识别（VGG-16复现）

一米向新 赋能新质——一米臻选APP上线暨新质经济发展论坛在杭举行

小程序毕设项目：基于微信小程序的博物馆文创产品销售推荐系统基于springboot+微信小程序的博物馆文创系统的设计与实现 (源码+文档，讲解、调试运行，定制等)

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

一米向新赋能新质——一米臻选APP上线暨新质经济发展论坛在杭举行