你以为你在用 Agent,其实你只是在用一个高级聊天框2023 年,"AI Agent"突然成了热词。每家公司都在说自己做了 Agent,每个产品都贴上了 Agent 的标签。但如果你问他们:你的 Agent 和普通 LLM 调用有什么本质区别?大多数人会沉默 3 秒,然后说:“……它能调工具。”这个回答错了吗?没错,但也没说到点子上。就好像有人问"汽车和自行车有什么区别",你回答"汽车有四个轮子"——对,但你漏掉了发动机。这篇文章的目标只有一个:帮你搞清楚 Agent 到底是什么,以及它和 LLM、Chatbot 的本质区别在哪里。搞清楚这个,你才能在实际工作中做出正确的技术选型——而不是把一个 LLM API 调用包装一下,对外号称"我们有 Agent 系统"。从一个场景说起假设你要做一个"帮用户分析竞品"的 AI 工具。用户输入一个公司名,工具输出竞品分析报告。方案 A:直接调 LLM用户输入:分析一下 Notion 的竞品 ↓ LLM 直接生成报告 ↓ 输出(基于训练数据,可能已经过时)方案 B:Chatbot用户输入:分析一下 Notion 的竞品 ↓ LLM 生成回复,记住对话历史 用户追问:重点对比一下价格策略 ↓ LLM 结合上下文继续回答 ↓ 多轮对话,但还是基于训练数据方案 C:Agent用户输入:分析一下 Notion 的竞品 ↓ Agent 思考:我需要最新数据,应该先搜索 ↓ 调用搜索工具,拿到最新竞品信息 ↓ Agent 思考:需要分析价格对比,调用计算工具 ↓ Agent 思考:信息足够了,开始生成报告 ↓ 输出(基于实时搜索结果,有数据来源)看出来了吗?Agent 会主动思考"我需要做什么",并自主决定下一步行动。这才是 Agent 的核心——不是能不能调工具,而是谁在决定何时调哪个工具。三个概念,三个层次LLM:有语言能力的"大脑"大语言模型(LLM)本质上是一个函数:输入:一段文本(Prompt) 输出:预测的下一个词(不断重复直到结束)它的能力来自于在海量文本上学到的统计规律。它懂语言,懂推理,但它没有记忆、没有感知、没有行动能力。每次调用都是独立的,上一次聊了什么,它完全不知道。单独的 LLM 更像一个只知道"回答问题"的天才学者:知识渊博,但住在与世隔绝的书房里,不知道窗外发生了什么,也没法主动帮你做任何事。Chatbot:加了记忆的 LLMChatbot = LLM +对话历史管理。它解决的问题很简单:让 LLM 能"记住"这轮对话说了什么。实现方式也很简单——把历史消息一起塞进 Prompt:# 伪代码:Chatbot 的核心逻辑messages=[]whileTrue:user_input=get_user_input()messages.append({"role":"user","content":user_input})response=llm.invoke(messages)# 把全部历史一起发给 LLMmessages.append({"role":"assistant","content":response})prin
Agent 系列(一):Agent 是什么——不只是「会调工具的 LLM」
发布时间:2026/5/21 21:02:16
你以为你在用 Agent,其实你只是在用一个高级聊天框2023 年,"AI Agent"突然成了热词。每家公司都在说自己做了 Agent,每个产品都贴上了 Agent 的标签。但如果你问他们:你的 Agent 和普通 LLM 调用有什么本质区别?大多数人会沉默 3 秒,然后说:“……它能调工具。”这个回答错了吗?没错,但也没说到点子上。就好像有人问"汽车和自行车有什么区别",你回答"汽车有四个轮子"——对,但你漏掉了发动机。这篇文章的目标只有一个:帮你搞清楚 Agent 到底是什么,以及它和 LLM、Chatbot 的本质区别在哪里。搞清楚这个,你才能在实际工作中做出正确的技术选型——而不是把一个 LLM API 调用包装一下,对外号称"我们有 Agent 系统"。从一个场景说起假设你要做一个"帮用户分析竞品"的 AI 工具。用户输入一个公司名,工具输出竞品分析报告。方案 A:直接调 LLM用户输入:分析一下 Notion 的竞品 ↓ LLM 直接生成报告 ↓ 输出(基于训练数据,可能已经过时)方案 B:Chatbot用户输入:分析一下 Notion 的竞品 ↓ LLM 生成回复,记住对话历史 用户追问:重点对比一下价格策略 ↓ LLM 结合上下文继续回答 ↓ 多轮对话,但还是基于训练数据方案 C:Agent用户输入:分析一下 Notion 的竞品 ↓ Agent 思考:我需要最新数据,应该先搜索 ↓ 调用搜索工具,拿到最新竞品信息 ↓ Agent 思考:需要分析价格对比,调用计算工具 ↓ Agent 思考:信息足够了,开始生成报告 ↓ 输出(基于实时搜索结果,有数据来源)看出来了吗?Agent 会主动思考"我需要做什么",并自主决定下一步行动。这才是 Agent 的核心——不是能不能调工具,而是谁在决定何时调哪个工具。三个概念,三个层次LLM:有语言能力的"大脑"大语言模型(LLM)本质上是一个函数:输入:一段文本(Prompt) 输出:预测的下一个词(不断重复直到结束)它的能力来自于在海量文本上学到的统计规律。它懂语言,懂推理,但它没有记忆、没有感知、没有行动能力。每次调用都是独立的,上一次聊了什么,它完全不知道。单独的 LLM 更像一个只知道"回答问题"的天才学者:知识渊博,但住在与世隔绝的书房里,不知道窗外发生了什么,也没法主动帮你做任何事。Chatbot:加了记忆的 LLMChatbot = LLM +对话历史管理。它解决的问题很简单:让 LLM 能"记住"这轮对话说了什么。实现方式也很简单——把历史消息一起塞进 Prompt:# 伪代码:Chatbot 的核心逻辑messages=[]whileTrue:user_input=get_user_input()messages.append({"role":"user","content":user_input})response=llm.invoke(messages)# 把全部历史一起发给 LLMmessages.append({"role":"assistant","content":response})prin