【AI编程通识】从模型到Agent,从Prompt到Harness 文章目录一、AI辅助编程方式Prompt、Context、Harness1. 演化主线2. 顶层范式Vibe Coding vs. Agentic Coding2.1Vibe Coding氛围编码2.2 Agentic Coding代理编码1Prompt Engineering提示词工程2Context Engineering上下文工程3Harness Engineering驾驭工程—— Agent LLM Harness4Coordination Engineering协同工程二、AI主流编程工具Cursor、Codex、Claude Code 核心性能与定位对比 深度解读数据背后的核心差异1. 性能表现专长不同赛道不同2. 任务架构决定工作方式的根本3. 成本与陷阱不止看标价三、AI交互模式Ask、Plan、Craft、Agent1. 四种模式对比2. 四大工具对四种模式的支持对比3. 交互模式详解1.Ask 模式先问后议不行动 —— 安全的顾问2.Plan 模式先议后定再行动 —— 严谨的建筑师3.Craft 模式听令即做快迭代 —— 高效的执行者4.Agent 模式委派闭环全自主 —— 全自主的工程师其他AI 原生工程师、AI 应用工程师AI产品形态基础大模型、对话式AI、AI Agent大模型 API 调用的响应模式非流式请求 vs. 流式请求会议纪要主流AI工具 —— 实时录音转文字自动生成会议纪要一、AI辅助编程方式Prompt、Context、HarnessAI辅助编程方式 │ ├── 演化阶段能力维度 │ ├── 语法级补全2020–2023 │ ├── 语义理解与对话2023–2025→ 催生 Vibe Coding │ └── 智能体架构2026–今 → 推动 Agentic Coding │ ├── 顶层范式协作模式 │ ├── Vibe Coding │ └── Agentic Coding │ └── 底层三组件 │ ├── Prompt Engineering │ ├── Context Engineering │ └── Harness Engineering │ └── 说明 └── Vibe Coding 不强制使用三组件其核心是直接对话与人类判断。 若借用部分组件如清晰提示属于对 Agentic 能力的共用不改变范式定义。1. 演化主线演化阶段时间窗口核心能力对应的主导范式代表工具/标志要点说明语法级补全2020–2023预测下一行/若干行代码尚未形成独立范式GitHub Copilot初代AI 首次进入编程领域作为“高级自动补全”存在开发者需提供完整上下文语义语义理解与对话2023–2025自然语言 → 代码局部需求理解Vibe Coding 成为主流ChatGPT 集成、Copilot Chat工具形态从 IDE 内补全转向 agent 中心化工作流Cursor agent 用量一年增长超 15 倍用户重心从 Tab 补全转向 Agent智能体架构2026–至今自主规划、执行、测试、迭代Agentic Coding 成为焦点Claude Code、Codex、Cursor核心跃迁AI 从“被动响应”升级为“主动执行”能够自主规划多步任务、调用外部工具、运行测试并迭代修正2. 顶层范式Vibe Coding vs. Agentic Coding范式定义主导方交互模式Vibe Coding开发者通过自然语言对话与AI协作AI生成代码人类即时评估并持续迭代始终在回路中人类对话式、步骤式Agentic CodingAI智能体自主理解目标、拆解任务、调用工具、执行代码、运行测试、根据反馈修正最小化人工干预AI智能体目标驱动、闭环自主2.1Vibe Coding氛围编码起源术语由 Andrej Karpathy 于 2025 年 2 月在社交媒体上提出。定义与特征开发者通过自然语言对话与 AI 协作AI 生成代码人类即时评估并持续迭代。开发者可公开接受或忽略某些风险而不像传统测试驱动开发那样严格要求所有验证环节。2025 年综述《A Survey of Vibe Coding with Large Language Models》将其界定为一种由开发者、项目上下文与编码 agent 共同构成的协同开发范式归纳出迭代式对话、规划驱动、测试驱动、上下文增强等若干典型模式。统计数据Index.dev 2025 年分析显示84% 的开发者正在使用 AI 编码工具41% 的代码由 AI 部分生成。DORA 2025 报告调查近 5000 名开发者发现90% 在工作中使用 AI 工具同比增长 14%超 80% 表示 AI 提升了生产力。学术争议低经验的 vibe coder 会生成更大体量的代码提交数 2.15 倍、变更文件数 1.47 倍收到 4.52 倍以上的评审意见接受率低 31%开启时长远 5.16 倍。这意味着项目管理者无法安全地替代经验丰富的开发者而必须增加评审能力。2.2 Agentic Coding代理编码定义与特征AI 智能体自主理解目标、拆解任务、调用工具、执行代码、运行测试、根据反馈修正最小化人工干预。SonarSource 对 1100 多名软件开发者的调查显示64% 的开发者已经开始使用 AI agent 进行开发工作39% 试验中25% 日常经常使用。使用场景分布68% 使用 agent 创建代码文档61% 用于自动测试生成与执行57% 用于自动代码审查。高风险的漏洞修补仅占 28%。采纳率Romain Robbes 等人首次对 GitHub 上编码 agent 的大规模研究128,018 个项目表明agent 采纳率已达 22.20%–28.66%。企业投资MIT Technology Review 与 SoftServe 发布的报告300 位高级技术高管显示50% 的组织将 agentic AI 列为当前软件工程的顶级投资优先项84% 表示到 2029 年将成为首要投资领域。方法论区分Thoughtworks 技术雷达指出2025 年行业已从 vibe coding 的松散、基于氛围的方式转向了系统化的上下文管理方法但人类开发者依然至关重要。工程范式一句话概括控制对象Prompt Engineering怎么问单个问答Context Engineering给什么信息单次对话的上下文Harness Engineering怎么约束和验证单个Agent的执行环境Coordination Engineering怎么协作多个Agent的团队1Prompt Engineering提示词工程定义设计、优化和动态生成输入提示的技术包括角色设定、任务分解、输出格式约束、示例等。时间2022–2024年作为AI辅助编程的第一代范式兴起。核心要点提示质量直接决定输出准确性支持多级任务拆解和动态生成实践中倾向于迭代多轮对话而非单次完美提示复杂代码生成和调试仍有挑战文档类任务最可靠适用场景复杂任务拆解、格式约束、领域知识注入。2Context Engineering上下文工程定义主动收集、维护并注入项目上下文的技术包括代码库结构、依赖、API定义、设计文档等。时间约2025年起Anthropic提出被确立为第二代范式。核心要点结合长期记忆向量数据库与短期感知当前会话支持多粒度上下文文件/模块/仓库级别核心难点在有限窗口内选择性注入最相关信息标志着从“优化话术”升级到“管理AI的信息环境”适用场景大型项目重构、多文件协同修改、风格一致性保持。3Harness Engineering驾驭工程—— Agent LLM Harness定义自动化验证框架的设计与实现用于检验生成代码的正确性、安全性、规范性形成“生成→验证→反馈→再生成”闭环。时间2025下半年–2026年作为第三代范式确立。核心要点责任分离LLM负责思考Harness负责约束、验证和管控核心信念靠代码、linter、测试保证正确性而非依赖LLM的直觉支持自动生成测试用例和分级验证快速语法检查 → 完整运行测试仅调整Harness、保持模型固定可使agent得分提升26%适用场景高可靠性模块、CI/CD代码生成、回归测试保障。4Coordination Engineering协同工程定义设计和管理多个AI Agent如何分工协作来完成复杂任务的技术。时间2026年至今正在兴起的第四代范式目前更多是设计理念和方法论尚未标准化普及。核心要点主Agent负责拆解与调度Subagents各司其职独立执行并行执行多个子任务大幅提升效率故障隔离单个子任务失败不影响全局只需重跑该子任务解决了单一Agent面临的上下文爆炸、串行慢、全局易崩三大问题适用场景复杂多模块任务、需要多种专业能力并行的工作、追求高效率的AI团队协作。二、AI主流编程工具Cursor、Codex、Claude Code在2026年的AI编程工具领域OpenAI Codex、Claude Code和Cursor已分化为三种截然不同的产品形态它们不再是同类竞品而是服务于不同开发场景的专属工具。直接的基准测试分数对比已无太大意义真正的选择应基于你的主力工作台是IDE、终端还是云端任务面板。以下将从核心形态、性能基准、成本模型和最佳场景四个维度为你梳理这三款工具的最新实力定位。 核心性能与定位对比对比维度CursorOpenAI CodexClaude Code产品形态AI原生IDE基于VS Code云端委派型AgentCLIApp终端优先型Agent核心基准Terminal-Bench 2.061.7%SWE-bench Multilingual73.7%Terminal-Bench 2.077.3%SWE-bench Pro56.8%SWE-bench Verified80.8%Terminal-Bench 2.065.4%上下文窗口较大结合Cloud Agents200K tokens100万 tokens性能特性编辑器集成最深交互流畅速度最快1000 tok/s任务隔离最强任务最彻底但Token消耗高3-4倍月费成本$20/月起Pro包含在ChatGPT Plus$20/月中$20/月Pro最佳场景日常主力IDE边写边改安全隔离的云端任务、并行处理复杂重构、大型代码库排障 深度解读数据背后的核心差异1. 性能表现专长不同赛道不同三者各自在一个关键的细分赛道上领先没有绝对的“全能冠军”。Codex在终端任务上最快它在Terminal-Bench 2.0真实终端任务上获得了77.3%的最高分推理速度高达1000 tokens/秒是Claude Code的5倍。如果你的任务是快速、高频的终端交互Codex是性能首选。Claude Code在软件工程上最“稳”它在SWE-bench Verified软件工程任务上取得了80.8%的最高分体现了处理复杂、真实世界代码问题的强大能力。但代价是它会消耗3-4倍于Codex的Token来追求“彻底性”。Cursor在“自研集成”上进步神速其自研的Composer 2模型在Terminal-Bench 2.0上得分61.7%超越了Claude Opus 4.6的58.0%并且将成本降低至后者的1/10。这说明Cursor正在快速摆脱对第三方模型的依赖。2. 任务架构决定工作方式的根本三者的架构设计决定了它们适合完成什么类型的任务。CursorIDE中心主义。它的设计目标是让你的编辑器更强大适合边写代码边和AI协作是日常开发的“主力环境”。Codex云端沙箱隔离。每个任务都运行在独立、无网络访问的云端容器中这带来了最强的任务隔离性和安全性非常适合处理你不信任或需要绝对保密的代码片段。Claude Code终端里的Agent Teams。它支持创建多个子Agent这些Agent可以相互通信、共享任务列表、跟踪依赖关系协同完成一个复杂的大工程比如同时进行代码研究、实现和测试。3. 成本与陷阱不止看标价Cursor$20/月的固定订阅费对于重度IDE用户是清晰的开销。Codex对已有的ChatGPT Plus$20/月用户是“零边际成本”的增值服务极具吸引力。Claude Code$20/月的订阅费看起来不高但要注意如果配置不当使用API密钥会产生额外账单。更重要的是它“高Token消耗”的特性3-4倍于Codex可能会导致你更快地触及使用上限。本实际使用体验的反馈。三、AI交互模式Ask、Plan、Craft、Agent1. 四种模式对比模式核心准则AI 的权限你的角色最佳应用场景Ask先问后议不行动只读可阅读、分析、搜索无写入/执行权限提问者、决策者学习框架、理解逻辑、方案讨论Plan先议后定再行动受限写入可生成计划文件需确认后才进入编码审核者、拍板人复杂功能开发、架构设计、多文件重构Craft听令即做快迭代高度自治跨文件批量生成/修改代码直接产出目标设定者、验收者快速原型、明确 Bug 修复、重复代码生成Agent委派闭环全自主完全自主可跨文件修改、执行终端命令、自行纠错最终验收者端到端复杂任务、无人值守执行2. 四大工具对四种模式的支持对比工具AskPlanCraftAgent整体风格GitHub Copilot✅Ask Agent/ 内联对话✅Plan Mode生成plan.md✅Edit代理单文件精准修改✅Agent模式跨文件 终端阶梯清晰从对话到全自主Cursor✅AskCmdL✅Plan模式生成步骤审核后执行✅EditCmdK框选修改✅Agent模式CmdI默认主力模式最全控制颗粒度细Codex❌ 无独立 Ask❌ 无显式 Plan❌ 无 Craft✅唯一模式云端容器全自动 Agent纯 Agent任务隔离无中间态Claude Code✅ 默认对话即 Ask✅Plan ModeShiftTab核心模式只读规划❌ 不单独提供✅ 通过多子 Agent 隐式实现但行动源于 Plan强规划先分析后执行保守彻底注Codex 不提供 Ask/Plan/Craft因为其设计理念是“直接委派任务给 Agent无需中间交互”。3. 交互模式详解1.Ask 模式先问后议不行动 —— 安全的顾问核心理念AI 仅作为顾问回答你的问题、解释代码逻辑、搜索相关信息、提供实现思路但绝不会修改任何文件或执行任何命令。这是一次只读的安全对话。特点零风险不会意外改动代码适合探索性工作学习新框架、理解遗留系统、讨论多种方案优劣AI 可以引用当前代码库内容作为依据典型工作流你提出问题 → AI 分析并给出建议 → 你根据建议自行编写代码2.Plan 模式先议后定再行动 —— 严谨的建筑师核心理念在“理解需求”和“动手编码”之间强制插入规划环节。AI 先输出一份结构化的实施计划通常分阶段、列清单、标依赖你审阅、修改、确认后AI 才按计划执行。这是提高复杂任务可控性的关键模式。特点计划可见可改所有步骤都以文档形式呈现降低不确定性大型重构、架构变更前先锁定方案支持“确认后执行”你可以选择仅生成计划或让 AI 在确认后自动执行各步骤典型工作流提出需求 → AI 生成计划 → 你审核/修改计划 → 可选AI 按计划逐步执行3.Craft 模式听令即做快迭代 —— 高效的执行者核心理念听令即做直接产出代码。AI 能够跨文件理解上下文一次性生成或修改多个文件无需逐条确认。与 Agent 的区别在于Craft 通常不主动执行终端命令也不具备反复试错的自愈能力属于“一次性批量代码生成”。特点快速响应适合明确、中等粒度的任务跨文件协作可同时创建/修改多个相关文件无自主命令执行不会运行测试、安装依赖或启动服务典型工作流你描述需求 → AI 直接生成/修改代码 → 你审阅所有变更 → 接受或拒绝4.Agent 模式委派闭环全自主 —— 全自主的工程师核心理念完全委派AI 作为自主智能体能够独立完成端到端的复杂任务。它自己规划步骤、跨文件搜索修改代码、执行终端命令、运行测试、分析报错并自动修复直到任务完成或遇到无法解决的阻塞。特点闭环自主无需人工中途干预工具齐全可调用文件系统、终端、LSP、浏览器等具备韧性失败后可自动尝试不同方案典型工作流你下达最终目标如“为支付模块添加 Stripe 支持并确保所有测试通过” → AI 自主规划、执行、纠错 → 你验收最终结果其他AI 原生工程师、AI 应用工程师这两者的核心区别在于一个更偏向模型本身或系统底层AI原生一个更偏向利用模型解决具体业务问题AI应用。维度AI原生工程师AI应用工程师关注点模型能力、效率、可控性业务逻辑、用户体验、快速落地是否训练/微调模型经常甚至从头训练很少最多做轻量微调主要工具PyTorch, CUDA, 分布式训练框架LangChain, API, 向量数据库, Prompt工具典型问题训练loss不降、显存OOM、推理慢模型输出格式错误、幻觉、成本控制对AI原理的深度要求深需要理解反向传播、注意力机制中等理解能力边界和接口即可典型公司角色AI Infra团队、模型团队产品开发团队、创新业务团队AI 原生工程师核心关注AI 模型本身、AI 基础设施、AI 系统的设计与开发。强调“以AI为核心构建系统”而不是在现有系统上“加一点AI”。典型任务设计、训练、微调大语言模型LLM或其他深度学习模型。开发推理引擎如 vLLM, TensorRT-LLM、模型 serving 平台。构建 AI Agent 框架、RAG检索增强生成系统的核心组件。优化 GPU 利用率、分布式训练、模型压缩量化。研究并实现新的模型架构如 Transformer 变体或训练方法。所需技能扎实的深度学习理论PyTorch/TensorFlow/JAX。精通 Python/C 和 CUDA 编程通常。熟悉分布式系统、高性能计算。了解模型架构细节注意力机制、MoE、LoRA 等。能处理训练不稳定、收敛问题等“AI特有”的工程挑战。类比造发动机 / 设计芯片的人。他们制造AI的“引擎”。产出基础模型、推理框架、Agent开发平台、AI开发工具链。AI 应用工程师核心关注利用现成的AI模型API或开源模型快速构建面向用户的产品功能。解决“如何让AI完成某个业务任务”。典型任务调用 OpenAI / Anthropic / 本地开源模型 API构建聊天机器人、内容生成工具、代码助手等。设计 Prompt提示工程通过上下文学习让模型输出符合业务格式。构建 RAG 应用连接向量数据库如 Pinecone, Milvus实现文档问答。编排多步骤的 AI 工作流使用 LangChain, LlamaIndex, Dify 等。对模型输出进行校验、后处理、安全过滤。评估不同模型在特定任务上的效果做模型路由。所需技能熟悉常见 LLM API 和开源模型的能力边界。擅长 Prompt Engineering、Chain-of-Thought 等技巧。基本的编程能力Python/TypeScript能连接数据源和前端/后端系统。了解 Embedding、向量检索的基本原理。具备产品思维知道如何评估AI的输出质量何时需要人工介入。类比使用发动机来造汽车 / 飞机的人。他们不造引擎但精通如何把引擎装到合适的载体上让载体跑起来解决运输问题。产出AI聊天客服、企业知识库问答、自动化报告生成器、AI绘画工作流等终端功能。AI产品形态基础大模型、对话式AI、AI Agent类别子类核心定位核心类比自主性工具调用方式典型代表基础大模型Foundation Models文本大模型Large Language ModelLLM智能能力本身文本引擎无不能调用工具国际GPT-5.4、Claude Opus 4.6、Grok 4.20、Llama 4、Mistral Large 3国产DeepSeek-V3/R1、通义千问Qwen 3.5、GLM-5、Kimi K2.5、文心一言5.0、MiniMax M2.5、腾讯混元多模态大模型Large Multimodal ModelLMM智能能力本身图文/音/视频引擎无不能调用工具国际Gemini 2.5/3.1、GPT-5 with vision、Claude 4 Vision、Llama 4 MultiModal、Sora、Veo、Runway Gen-4、Stable Diffusion 4.0国产通义万相、文心多模态、GLM-4V、智谱清影、可灵Kling 3.0、海艺AI、即梦Seedance 2.0对话式AIConversational AICoAI—智能能力的对话封装整车低回合对话用户主动触发单步国际ChatGPT、Claude.ai、Gemini、Perplexity、Microsoft Copilot、Grok国产豆包、Kimi、DeepSeek Chat、文心一言、通义千问AI 智能体 (AI Agent)—智能能力的自主执行体自动驾驶车队高自主规划、多步闭环自动拆解任务、多工具链式调用国际Cursor、Claude Code、OpenAI Codex、Devin、GitHub Copilot Agent、Windsurf、Google Antigravity国产豆包Agent、文心快码、通义灵码、智谱AutoGLM基础大模型底层智能 ↓ 封装 对话式AI对话交互界面 ↓ 增强自主性 AI Agent自主执行体# AI Agent通常内部包含一个或多个大模型也可能以对话式AI作为前端入口但其核心是**执行闭环**而非问答。大模型 API 调用的响应模式非流式请求 vs. 流式请求核心区别在于数据返回的方式和时机。维度非流式请求 (Non-Streaming)流式请求 (Streaming)响应方式一次性返回完整结果逐字/逐块返回生成内容用户感知等待后一次性呈现实时看到生成过程打字机效果首字延迟较高需等待完整生成极低首块内容快速返回适用场景短内容、简单问答、批量处理长文本、实时对话、ChatGPT式交互技术实现单次 HTTP 请求响应SSEServer-Sent Events或 WebSocket中断能力不支持一旦开始必须等待完成支持可随时关闭连接停止生成代表产品批量 API 调用、离线任务ChatGPT、Claude 网页版、DeepSeek Chat【非流式】 用户 ──请求──▶ 服务器生成中...生成完成──完整结果──▶ 用户 等待时间完整生成时间 【流式】 用户 ──请求──▶ 服务器 ──第一块──▶ 用户看到开头 ──第二块──▶ 用户继续 ──第三块──▶ 用户继续 ──完成────▶ 用户 首字延迟极低边生成边显示################################################# 非流式responseclient.chat.completions.create(modelgpt-4,messages[{role:user,content:讲个故事}],streamFalse# 非流式)print(response.choices[0].message.content)# 一次性输出完整故事# 流式responseclient.chat.completions.create(modelgpt-4,messages[{role:user,content:讲个故事}],streamTrue# 流式)forchunkinresponse:print(chunk.choices[0].delta.content,end)# 逐字输出################################################会议纪要主流AI工具 —— 实时录音转文字自动生成会议纪要工具类型核心功能支持平台免费额度付费起价Otter.ai国际/实时转录实时转录、自动摘要、发言人识别Zoom、Meet、Teams、Webex300分钟/月$16.99/月Fireflies.ai国际/实时转录转录、摘要、动作项提取、知识库搜索全平台API无限功能受限$19/月Fathom国际/会议机器人一键录制、高亮标记、CRM集成Zoom、Meet、Teams完全免费—Read.ai国际/会议机器人健康度分析、情绪识别、参与度追踪Zoom、Teams、Meet基础免费$15/月Tactiq国际/实时转录实时字幕、一键生成纪要、导出DocsMeet、Zoom、Teams10次/月$8/月Avoma国际/会议机器人全周期管理会前→会中→会后全平台30天试用$30/月Sembly国际/会议机器人任务追踪、风险识别、合规审计全平台10次/月$15/月通义听悟国产/实时转录实时转录、章节速览、PPT提取、中英混合网页/App10小时/天基础免费讯飞听见国产/实时转录ASR转录、多语翻译、发言人分离网页/App分钟计费按分钟腾讯会议AI助手国产/原生集成自动总结、待办提取腾讯会议企业版包含企业版飞书妙记国产/原生集成转录、翻译、智能章节、任务联动飞书付费版包含飞书付费版华为云会议智能纪要国产/原生集成自动区分发言人、实时字幕华为会议企业版包含企业版需求首选个人免费国际会议Fathom个人免费中文会议通义听悟功能全面团队使用Fireflies.ai飞书/腾讯会议用户原生AI助手