用操作系统类比彻底搞懂 AI Agent进程、系统调用与上下文窗口引言很多人第一次接触 AI Agent会立刻被一堆新词包围Tool Use、Function Calling、RAG、Memory、Orchestrator、Multi-Agent、Context Compression。这些词看起来很新但它们背后要解决的问题并不新。如果你学过操作系统会发现 Agent 系统并不是凭空长出来的另一个世界。它更像是把操作系统里已经出现过的问题换了一批资源、换了一套接口、换了一种计算单元然后重新演了一遍。在操作系统里核心资源是 CPU、内存、文件、设备和网络在 Agent 系统里核心资源变成了 token、上下文窗口、推理时间、外部工具和知识库。在操作系统里程序不能随便访问硬件必须通过系统调用进入内核在 Agent 系统里模型不能自己搜索网页、运行代码、查询数据库必须通过工具调用交给外部运行环境执行。这不是说 Agent 和操作系统完全一样。更准确的说法是它们面对的是一组高度相似的系统问题。如何划分执行边界如何隔离权限如何调度任务如何管理稀缺资源如何把慢而大的外部存储接入快速计算过程如何处理并发、竞争、失败和一致性理解了这一点Agent 就不再只是一个会聊天的大模型。它开始变成一个可以被工程化、被调度、被治理的系统。一、Agent 不是只有 Model很多入门文章会把 Agent 讲成大模型 提示词。这个说法太薄了。在真实工程里更有解释力的结构是Agent Model HarnessModel负责推理Harness负责把推理接到真实世界。Harness 可以理解为 Agent 的运行时环境。它接收用户输入维护上下文暴露工具解析模型输出执行函数调用处理工具返回再把结果塞回模型。模型本身只是在 token 空间里计算真正让它拥有外部行动能力的是 Harness。图 1Agent Model Harness 的基本结构。这个视角很重要。因为只看 Model你会觉得 Agent 的能力全在模型聪不聪明但看见 Harness 之后你会意识到 Agent 的工程能力来自一整套运行机制上下文如何组织工具如何注册权限如何限制结果如何校验多个 Agent 如何调度失败时如何重试或回滚这已经不是单纯的提示词工程而是系统工程。二、进程和线程Sub-Agent 带来的并发问题在操作系统里进程是资源边界线程是执行单元。同一个进程里的多个线程共享内存所以线程之间通信很快但也容易出现竞争条件。不同进程之间默认隔离彼此不能随便读写对方内存跨进程通信必须通过管道、Socket、共享内存、消息队列等机制。Agent 世界正在重演这件事。当一个任务足够复杂时我们会把它拆给多个 sub-Agent一个 Agent 负责搜索资料一个 Agent 负责阅读代码一个 Agent 负责写草稿一个 Agent 负责审查事实一个 Agent 负责生成最终答案这样做的好处很明显并行、分工、上下文更专注。但问题也随之出现这些 Agent 之间到底共享什么如果所有 Agent 共享同一份上下文通信成本很低但状态会变得混乱。一个 Agent 写入的结论另一个 Agent 可能还没看见一个 Agent 基于旧信息做了判断另一个 Agent 已经把前提改掉了。共享上下文越方便竞争条件越容易出现。如果每个 Agent 都有独立上下文隔离性会更好但通信成本会上升。它们必须显式传递结果必须约定输出格式必须有人负责合并和裁决。图 2操作系统与 Agent 系统的核心类比。所以 Multi-Agent 的难点不只是多叫几个模型一起干活。真正的难点是并发系统的老问题谁能访问谁的状态谁对最终结果负责多个 Agent 输出冲突时听谁的中间结果是否需要锁定任务失败后如何重试是否存在循环等待、重复工作和无效协商操作系统里的死锁、竞争、一致性问题到了 Agent 系统里并没有消失只是换了一身自然语言的衣服。三、系统调用Tool Use 是权限边界上的洞用户程序想读文件、访问网络、操作硬件不能直接碰底层资源。它必须通过系统调用进入内核由内核检查权限、执行操作再把结果返回给用户程序。这个机制的关键不只是让程序能访问硬件更是让程序不能随便访问硬件。Agent 的 Tool Use 也是类似逻辑。模型本身不能真的打开浏览器不能真的运行代码不能真的查数据库。它只能生成一个结构化请求例如{tool:search_web,arguments:{query:Agent tool use function calling}}Harness 接到这个请求后会判断这个工具是否存在当前 Agent 是否有权限使用参数是否合法是否需要用户确认执行结果是否可信返回内容是否应该进入上下文这就是 Agent 世界里的系统调用。图 3Tool Use 与系统调用的相似路径。这个类比能帮助我们理解 Tool Use 的本质它不是给模型加插件这么简单而是在权限边界上打一个受控的洞。能力从这个洞里流进来风险也被这个洞隔住。如果没有 Harness 做边界模型就会变成一个没有权限模型的自动化脚本。如果没有工具模型就只能困在上下文窗口里说话。一个可用的 Agent 系统必须同时拥有能力入口和边界控制。四、Cache 和虚拟内存Context Window 是最贵的内存在 Agent 系统里最稀缺的资源是什么很多人会说是模型能力。这个答案不算错但从工程角度看真正每天都在被消耗、被压缩、被调度的资源是上下文窗口。Context Window 就像 Agent 的工作内存。模型每一次推理只能看到当前上下文窗口里的内容。窗口外的内容除非被重新检索、重新摘要、重新放进来否则对模型来说就相当于不存在。这和 CPU Cache / 内存 / 磁盘的分层非常像当前推理里的关键指令和目标像寄存器最近几轮对话和工具返回像高速缓存长期记忆、项目文档和历史记录像主存或磁盘压缩摘要像被换页出去后留下的索引上下文窗口满了怎么办Agent 框架通常会做几件事删除不重要的历史消息把长对话压缩成摘要把文件内容放到外部存储需要时再检索只保留任务目标、约束、当前计划和关键事实这就是语义版本的内存管理。图 4Context Window 与存储分层。这里有一个很容易被忽略的问题压缩不是无损的。一段对话被压缩成摘要后细节会丢失语气会丢失反例会丢失某些边界条件也可能被丢失。操作系统把内存页换到磁盘理论上字节还能原样换回来但 Agent 把上下文压缩成语义摘要再恢复时就不一定是原来的信息了。所以 Context Compression 不是简单的省 token 技巧它会直接影响系统的一致性和可靠性。五、文件系统挂载RAG 是把知识库接进运行时如果所有知识都必须塞进上下文窗口Agent 很快就会崩溃。现实任务需要大量外部知识产品文档、代码仓库、数据库记录、用户手册、论文、工单、会议纪要、历史聊天记录。它们体积很大但每次推理真正需要的只是其中一小部分。RAG 的作用就是把这些外部知识库挂载到 Agent 的运行时里。它不要求所有内容常驻上下文而是在需要时根据当前问题生成查询去外部知识库检索相关片段对结果排序、过滤和重组把少量高相关内容放入上下文让模型基于这些内容生成答案或行动这很像操作系统挂载外部存储。磁盘容量大、便宜、慢内存容量小、贵、快。文件系统和虚拟内存的价值就是用廉价的大容量存储补偿昂贵的快速内存。RAG 也是一样外部知识库容量大、便宜、慢上下文窗口容量小、贵、快。检索系统负责把可能有用的知识按需搬进上下文窗口。图 5RAG 作为 Agent 的外部知识挂载。但 RAG 也有自己的工程陷阱。检索不到模型会缺事实检索太多窗口会被噪声淹没切片太碎语义断裂切片太长召回不准排序不好关键证据进不来权限没做好用户可能看到不该看的知识。所以 RAG 不只是向量数据库 embedding。它本质上是 Agent 的知识 I/O 子系统。六、Harness 和 OrchestratorAgent 系统的内核与调度器如果把 Model 看成计算核心那么 Harness 就像 Agent 的内核。它至少要负责这些事情接收输入并构造上下文维护可用工具列表管理工具权限执行工具调用处理工具返回记录中间状态控制循环次数在失败时重试、降级或终止当系统里只有一个 Agent 时Harness 已经很重要。当系统里有多个 Agent 时还需要一个 Orchestrator。Orchestrator 做的事很像调度器把复杂任务拆成多个子任务决定哪个 Agent 先运行决定哪些 Agent 可以并行控制每个 Agent 的上下文和工具权限汇总多个 Agent 的输出处理冲突、失败和重复工作图 6Multi-Agent 的调度结构。到这里Agent 架构的轮廓就比较清楚了。Model 不是全部。Tool 不是外挂。Memory 不是聊天记录。RAG 不是简单搜索。Multi-Agent 也不是让一堆模型互相聊天。它们共同组成了一个运行系统Agent 组件类似 OS 概念主要作用ModelCPU / 执行核心根据上下文进行推理、规划和生成Harness内核 / 运行时管理上下文、工具、权限、执行循环Tool Use系统调用让模型通过受控接口访问外部能力Context WindowCache / 内存保存当前推理可见的信息Memory主存 / 持久化状态保存跨轮次、跨任务的状态和经验RAG文件系统挂载按需接入外部知识库Orchestrator调度器拆分任务、调度多个 Agent、合并结果Sub-Agent进程 / 线程承担局部任务带来并发和协作问题七、开发者应该如何理解 Agent如果你是开发者我建议先不要把 Agent 理解成更聪明的聊天机器人。更好的理解方式是Agent 是一个以大模型为执行核心的受控运行系统。它有输入有状态有工具有权限有调度有失败有资源限制也有副作用。它会访问外部世界会读写文件会调用 API会执行代码会把中间结果传给下一个环节。一旦系统有了这些特征我们就不能只用提示词写得好不好来评价它。我们还要问工具权限是否最小化上下文是否可追踪RAG 结果是否有证据来源多 Agent 输出是否可合并失败是否可恢复成本是否可控制关键步骤是否可审计这些问题听起来很工程甚至有点老派。但这正是 Agent 从 Demo 走向真实应用必须补上的部分。八、结尾老问题新资源操作系统花了几十年才把进程、线程、系统调用、虚拟内存、文件系统、调度器这些问题逐渐想清楚。Agent 时代正在把同样的问题重新答一遍。只不过这一次资源从 CPU 和内存变成了 token 和推理时间程序从机器指令变成了自然语言系统调用从read()、write()、open()变成了工具调用文件系统挂载从磁盘和网络存储变成了向量库、文档库和企业知识库。所以学习 Agent 不应该只学 API也不应该只学提示词。真正值得建立的是系统感你要知道模型在哪里计算工具在哪里执行状态在哪里保存知识在哪里检索权限在哪里收口多个 Agent 之间如何协作以及当它们出错时谁来兜底。当你开始这样看 Agent它就不再是一个神秘的新名词而是一套可以被分析、设计和实现的工程系统。这也是开发者进入大模型应用时代时最值得补上的第一课。
用操作系统类比彻底搞懂 AI Agent:进程、系统调用与上下文窗口
发布时间:2026/5/16 17:41:23
用操作系统类比彻底搞懂 AI Agent进程、系统调用与上下文窗口引言很多人第一次接触 AI Agent会立刻被一堆新词包围Tool Use、Function Calling、RAG、Memory、Orchestrator、Multi-Agent、Context Compression。这些词看起来很新但它们背后要解决的问题并不新。如果你学过操作系统会发现 Agent 系统并不是凭空长出来的另一个世界。它更像是把操作系统里已经出现过的问题换了一批资源、换了一套接口、换了一种计算单元然后重新演了一遍。在操作系统里核心资源是 CPU、内存、文件、设备和网络在 Agent 系统里核心资源变成了 token、上下文窗口、推理时间、外部工具和知识库。在操作系统里程序不能随便访问硬件必须通过系统调用进入内核在 Agent 系统里模型不能自己搜索网页、运行代码、查询数据库必须通过工具调用交给外部运行环境执行。这不是说 Agent 和操作系统完全一样。更准确的说法是它们面对的是一组高度相似的系统问题。如何划分执行边界如何隔离权限如何调度任务如何管理稀缺资源如何把慢而大的外部存储接入快速计算过程如何处理并发、竞争、失败和一致性理解了这一点Agent 就不再只是一个会聊天的大模型。它开始变成一个可以被工程化、被调度、被治理的系统。一、Agent 不是只有 Model很多入门文章会把 Agent 讲成大模型 提示词。这个说法太薄了。在真实工程里更有解释力的结构是Agent Model HarnessModel负责推理Harness负责把推理接到真实世界。Harness 可以理解为 Agent 的运行时环境。它接收用户输入维护上下文暴露工具解析模型输出执行函数调用处理工具返回再把结果塞回模型。模型本身只是在 token 空间里计算真正让它拥有外部行动能力的是 Harness。图 1Agent Model Harness 的基本结构。这个视角很重要。因为只看 Model你会觉得 Agent 的能力全在模型聪不聪明但看见 Harness 之后你会意识到 Agent 的工程能力来自一整套运行机制上下文如何组织工具如何注册权限如何限制结果如何校验多个 Agent 如何调度失败时如何重试或回滚这已经不是单纯的提示词工程而是系统工程。二、进程和线程Sub-Agent 带来的并发问题在操作系统里进程是资源边界线程是执行单元。同一个进程里的多个线程共享内存所以线程之间通信很快但也容易出现竞争条件。不同进程之间默认隔离彼此不能随便读写对方内存跨进程通信必须通过管道、Socket、共享内存、消息队列等机制。Agent 世界正在重演这件事。当一个任务足够复杂时我们会把它拆给多个 sub-Agent一个 Agent 负责搜索资料一个 Agent 负责阅读代码一个 Agent 负责写草稿一个 Agent 负责审查事实一个 Agent 负责生成最终答案这样做的好处很明显并行、分工、上下文更专注。但问题也随之出现这些 Agent 之间到底共享什么如果所有 Agent 共享同一份上下文通信成本很低但状态会变得混乱。一个 Agent 写入的结论另一个 Agent 可能还没看见一个 Agent 基于旧信息做了判断另一个 Agent 已经把前提改掉了。共享上下文越方便竞争条件越容易出现。如果每个 Agent 都有独立上下文隔离性会更好但通信成本会上升。它们必须显式传递结果必须约定输出格式必须有人负责合并和裁决。图 2操作系统与 Agent 系统的核心类比。所以 Multi-Agent 的难点不只是多叫几个模型一起干活。真正的难点是并发系统的老问题谁能访问谁的状态谁对最终结果负责多个 Agent 输出冲突时听谁的中间结果是否需要锁定任务失败后如何重试是否存在循环等待、重复工作和无效协商操作系统里的死锁、竞争、一致性问题到了 Agent 系统里并没有消失只是换了一身自然语言的衣服。三、系统调用Tool Use 是权限边界上的洞用户程序想读文件、访问网络、操作硬件不能直接碰底层资源。它必须通过系统调用进入内核由内核检查权限、执行操作再把结果返回给用户程序。这个机制的关键不只是让程序能访问硬件更是让程序不能随便访问硬件。Agent 的 Tool Use 也是类似逻辑。模型本身不能真的打开浏览器不能真的运行代码不能真的查数据库。它只能生成一个结构化请求例如{tool:search_web,arguments:{query:Agent tool use function calling}}Harness 接到这个请求后会判断这个工具是否存在当前 Agent 是否有权限使用参数是否合法是否需要用户确认执行结果是否可信返回内容是否应该进入上下文这就是 Agent 世界里的系统调用。图 3Tool Use 与系统调用的相似路径。这个类比能帮助我们理解 Tool Use 的本质它不是给模型加插件这么简单而是在权限边界上打一个受控的洞。能力从这个洞里流进来风险也被这个洞隔住。如果没有 Harness 做边界模型就会变成一个没有权限模型的自动化脚本。如果没有工具模型就只能困在上下文窗口里说话。一个可用的 Agent 系统必须同时拥有能力入口和边界控制。四、Cache 和虚拟内存Context Window 是最贵的内存在 Agent 系统里最稀缺的资源是什么很多人会说是模型能力。这个答案不算错但从工程角度看真正每天都在被消耗、被压缩、被调度的资源是上下文窗口。Context Window 就像 Agent 的工作内存。模型每一次推理只能看到当前上下文窗口里的内容。窗口外的内容除非被重新检索、重新摘要、重新放进来否则对模型来说就相当于不存在。这和 CPU Cache / 内存 / 磁盘的分层非常像当前推理里的关键指令和目标像寄存器最近几轮对话和工具返回像高速缓存长期记忆、项目文档和历史记录像主存或磁盘压缩摘要像被换页出去后留下的索引上下文窗口满了怎么办Agent 框架通常会做几件事删除不重要的历史消息把长对话压缩成摘要把文件内容放到外部存储需要时再检索只保留任务目标、约束、当前计划和关键事实这就是语义版本的内存管理。图 4Context Window 与存储分层。这里有一个很容易被忽略的问题压缩不是无损的。一段对话被压缩成摘要后细节会丢失语气会丢失反例会丢失某些边界条件也可能被丢失。操作系统把内存页换到磁盘理论上字节还能原样换回来但 Agent 把上下文压缩成语义摘要再恢复时就不一定是原来的信息了。所以 Context Compression 不是简单的省 token 技巧它会直接影响系统的一致性和可靠性。五、文件系统挂载RAG 是把知识库接进运行时如果所有知识都必须塞进上下文窗口Agent 很快就会崩溃。现实任务需要大量外部知识产品文档、代码仓库、数据库记录、用户手册、论文、工单、会议纪要、历史聊天记录。它们体积很大但每次推理真正需要的只是其中一小部分。RAG 的作用就是把这些外部知识库挂载到 Agent 的运行时里。它不要求所有内容常驻上下文而是在需要时根据当前问题生成查询去外部知识库检索相关片段对结果排序、过滤和重组把少量高相关内容放入上下文让模型基于这些内容生成答案或行动这很像操作系统挂载外部存储。磁盘容量大、便宜、慢内存容量小、贵、快。文件系统和虚拟内存的价值就是用廉价的大容量存储补偿昂贵的快速内存。RAG 也是一样外部知识库容量大、便宜、慢上下文窗口容量小、贵、快。检索系统负责把可能有用的知识按需搬进上下文窗口。图 5RAG 作为 Agent 的外部知识挂载。但 RAG 也有自己的工程陷阱。检索不到模型会缺事实检索太多窗口会被噪声淹没切片太碎语义断裂切片太长召回不准排序不好关键证据进不来权限没做好用户可能看到不该看的知识。所以 RAG 不只是向量数据库 embedding。它本质上是 Agent 的知识 I/O 子系统。六、Harness 和 OrchestratorAgent 系统的内核与调度器如果把 Model 看成计算核心那么 Harness 就像 Agent 的内核。它至少要负责这些事情接收输入并构造上下文维护可用工具列表管理工具权限执行工具调用处理工具返回记录中间状态控制循环次数在失败时重试、降级或终止当系统里只有一个 Agent 时Harness 已经很重要。当系统里有多个 Agent 时还需要一个 Orchestrator。Orchestrator 做的事很像调度器把复杂任务拆成多个子任务决定哪个 Agent 先运行决定哪些 Agent 可以并行控制每个 Agent 的上下文和工具权限汇总多个 Agent 的输出处理冲突、失败和重复工作图 6Multi-Agent 的调度结构。到这里Agent 架构的轮廓就比较清楚了。Model 不是全部。Tool 不是外挂。Memory 不是聊天记录。RAG 不是简单搜索。Multi-Agent 也不是让一堆模型互相聊天。它们共同组成了一个运行系统Agent 组件类似 OS 概念主要作用ModelCPU / 执行核心根据上下文进行推理、规划和生成Harness内核 / 运行时管理上下文、工具、权限、执行循环Tool Use系统调用让模型通过受控接口访问外部能力Context WindowCache / 内存保存当前推理可见的信息Memory主存 / 持久化状态保存跨轮次、跨任务的状态和经验RAG文件系统挂载按需接入外部知识库Orchestrator调度器拆分任务、调度多个 Agent、合并结果Sub-Agent进程 / 线程承担局部任务带来并发和协作问题七、开发者应该如何理解 Agent如果你是开发者我建议先不要把 Agent 理解成更聪明的聊天机器人。更好的理解方式是Agent 是一个以大模型为执行核心的受控运行系统。它有输入有状态有工具有权限有调度有失败有资源限制也有副作用。它会访问外部世界会读写文件会调用 API会执行代码会把中间结果传给下一个环节。一旦系统有了这些特征我们就不能只用提示词写得好不好来评价它。我们还要问工具权限是否最小化上下文是否可追踪RAG 结果是否有证据来源多 Agent 输出是否可合并失败是否可恢复成本是否可控制关键步骤是否可审计这些问题听起来很工程甚至有点老派。但这正是 Agent 从 Demo 走向真实应用必须补上的部分。八、结尾老问题新资源操作系统花了几十年才把进程、线程、系统调用、虚拟内存、文件系统、调度器这些问题逐渐想清楚。Agent 时代正在把同样的问题重新答一遍。只不过这一次资源从 CPU 和内存变成了 token 和推理时间程序从机器指令变成了自然语言系统调用从read()、write()、open()变成了工具调用文件系统挂载从磁盘和网络存储变成了向量库、文档库和企业知识库。所以学习 Agent 不应该只学 API也不应该只学提示词。真正值得建立的是系统感你要知道模型在哪里计算工具在哪里执行状态在哪里保存知识在哪里检索权限在哪里收口多个 Agent 之间如何协作以及当它们出错时谁来兜底。当你开始这样看 Agent它就不再是一个神秘的新名词而是一套可以被分析、设计和实现的工程系统。这也是开发者进入大模型应用时代时最值得补上的第一课。