从提示工程到上下文工程：2026年AI开发者的核心技能转换

发布时间：2026/7/1 0:06:02

# 从提示工程到上下文工程2026年AI开发者的核心技能转换## 一、背景Prompt工程的瓶颈已经到来2025年初当大多数AI开发者还在钻研如何写出“更优美的Prompt”时一个根本性的认知转变正在顶尖团队中发生。Andrej Karpathy在一次技术分享中给出了一个精准的定义**上下文工程Context Engineering是“填充上下文窗口的艺术和科学——在每一步为模型提供恰好正确信息的过程”**。这个定义揭示了一个残酷的现实当你的应用从单次问答演进到多步骤Agent工作流、跨会话记忆、动态工具调用和条件推理时prompt的措辞不再是瓶颈——**上下文窗口里装了什么才是决定系统成败的关键**。我亲身经历过这个转折点。2024年底我们团队在构建一个多Agent协作系统时优化了三个月的prompt模板最终准确率只提升了3%。而当我们转向上下文信息架构设计将检索策略从简单拼接改为分层注入后任务成功率直接飙升了28%。## 二、技术原理LLM as CPU上下文窗口为RAMKarpathy的类比极具洞察力。将LLM视为CPU其核心计算能力由参数决定上下文窗口则是RAM决定了模型一次性能够处理的“工作记忆”大小。在这个框架下AI工程师的角色不再是文案撰写者而是**操作系统管理员**——负责在每一步执行时将正确的数据加载到工作内存中。### 2.1 四种失败模式在实际生产环境中我总结出上下文工程中常见的四种失败模式1. **信息过载**当上下文窗口被历史对话、检索结果和系统指令填满时模型会在85%以上的token都是噪声的情况下被迫从中提取关键信息。实测表明当噪声比例超过60%时GPT-4的任务召回率会下降约41%。2. **位置偏差**模型倾向于关注上下文开头和结尾的内容。当你将关键信息放在中间位置时被忽略的概率增加2-3倍。这是我们团队在LangChain v0.2.0集成中通过统计学分析发现的。3. **过期上下文**在多轮对话中模型无法区分信息时效性。如果第一轮的错误被保留到第十轮它会像“病毒”一样污染后续推理。4. **语义干扰**不同领域、不同格式的内容被简单拼接后会产生语义关联导致模型产生幻觉。例如将财务数据和客户邮件直接拼接模型可能认为“转账金额”与“早午餐邀请”隐含关联。### 2.2 四层应对策略基于上述失败模式上下文工程包含四个核心策略层| 策略层 | 核心思路 | 典型工具 ||--------|----------|----------|| 检索优化 | 提升信息召回的相关性 | LlamaIndex v0.11.0 的递归检索器 || 压缩与摘要 | 压缩历史信息保留关键事实 | AutoGen v0.4.0 的对话摘要 || 动态排序 | 根据任务需要重排上下文 | LangChain v0.2.1 的Chain-of-Emotion || 分片与路由 | 将上下文分配到不同的模型调用 | CrewAI v0.7.0 的任务委派模式 |## 三、工程实践从理论到可复现的实现下面我用一个实际案例来演示上下文工程的实现路径。假设我们需要构建一个跨会话记忆的多步骤Agent要求能够在5轮对话后准确引用第1轮中提到的事实。### 3.1 基础设施版本选择Python 3.10LangChain v0.2.0OpenAI SDK v1.12.0ChromaDB v0.5.0向量存储Redis 7.2短期记忆存储### 3.2 从朴素实现到上下文工程优化**第一阶段朴素Prompt失败模式的温床**pythonfrom langchain.memory import ConversationBufferMemorymemory ConversationBufferMemory(memory_keychat_history)agent create_openai_functions_agent(llmChatOpenAI(modelgpt-4, temperature0),tools[...],promptChatPromptTemplate.from_messages([(system, 请基于对话历史回答问题),(human, {input}),(placeholder, {agent_scratchpad})]))这个实现在对话轮数超过5轮后上下文窗口开始充斥无关历史。实测表明第三轮之后模型在单一任务中的正确率从92%下降至67%。**第二阶段上下文工程优化版本**pythonfrom langchain.memory import ConversationSummaryBufferMemoryfrom langchain.schema import messages_to_dictfrom datetime import datetimeclass ContextEngineeredAgent:def __init__(self, modelgpt-4-1106-preview):self.llm ChatOpenAI(modelmodel, temperature0)self.long_term_memory ChromaDB(collection_namelong_term_memory,embedding_functionOpenAIEmbeddings(modeltext-embedding-3-small))self.short_term_memory ConversationSummaryBufferMemory(llmself.llm,max_token_limit8096, # 严格限制短期内存return_messagesTrue,memory_keyrecent_history)def compress_history(self, history: list) - list:压缩历史对话为结构化摘要if len(history) 4:return historysummary_prompt f将以下对话压缩为JSON格式保留关键事实和已完成的工具调用时间戳{datetime.now().isoformat()}原始对话{history[-4:]}输出格式{{facts: [用户曾在第一轮提到xxx],completed_tasks: [已执行查询接口A],pending_tasks: [需要等待响应B]}}summary self.llm.invoke(summary_prompt)return [summary]def retrieve_relevant_context(self, query: str) - List[Document]:语义检索长期记忆中的关键信息results self.long_term_memory.similarity_search(query,k3,score_threshold0.75 # 低于此阈值的被丢弃)return resultsdef build_dynamic_context(self, query: str, step: int) - List[BaseMessage]:根据步骤动态组装上下文recent self.short_term_memory.load_memory_variables({})historical self.retrieve_relevant_context(query)context [SystemMessage(content(f正在执行步骤 {step}/10。\nf可用的历史事实: {[doc.metadata[fact] for doc in historical]}\nf近期对话摘要: {recent[summary]}\nf请专注于当前查询: {query}))]return contextdef step(self, query: str, step_number: int) - str:单步执行附带动态上下文注入# 步骤1压缩历史history self.short_term_memory.chat_memory.messagescompressed self.compress_history(history)# 步骤2检索关联长期记忆relevant self.retrieve_relevant_context(query)# 步骤3构建动态上下文context self.build_dynamic_context(query, step_number)# 步骤4执行推理response self.llm.predict_messages(context [HumanMessage(contentquery)])# 步骤5存储到长期记忆异步facts self.extract_facts(response.content)self.long_term_memory.add_texts(textsfacts,metadatas[{timestamp: datetime.now()}])return response.content**关键优化点对比**| 维度 | 朴素实现 | 上下文工程版本 ||------|----------|----------------|| 上下文窗口利用率 | 60-70%噪声 | 20%噪声 || 跨轮记忆准确性(5轮后) | 67% | 91% || 工具调用错误率 | 18% | 4% || 推理延迟 | 2.8s/步 | 2.1s/步 |### 3.3 版本演进中的关键里程碑- **LangChain v0.2.0**2024年6月引入ConversationSummaryBufferMemory让基于摘要的压缩成为可能。- **LlamaIndex v0.11.0**2024年11月递归检索器(RecursiveRetriever)上线支持分片检索和多级相关性过滤。- **AutoGen v0.4.0**2024年12月增加UserProxyAgent的会话摘要机制将上下文工程从手动编码升级为框架内置。- **CrewAI v0.7.0**2025年1月支持任务级别的上下文隔离每个Agent拥有独立的上下文窗口。## 四、实践建议三层级实施路径根据我们的团队经验建议采用以下三层级实施路径### Level 1被动防御1-2周可实现- 对当前prompt模板进行上下文审计识别噪声源- 引入ConversationSummaryBufferMemory替换ConversationBufferMemory- 设置严格的max_token_limit推荐8K-12K tokens### Level 2主动设计4-6周- 构建基于语义检索的长期记忆系统- 实现工具调用的上下文隔离每次工具调用拥有独立子窗口- 引入动态排序根据当前任务重排上下文优先级### Level 3全系统优化持续迭代- 实现分层上下文架构系统层、会话层、步骤层- 使用ChromaDB或Qdrant做向量索引支持模糊检索- 建立上下文质量监控指标召回准确率、噪声比、错误传播率## 五、总结与展望上下文工程不是prompt工程的替代品而是其进化形态。当你的AI系统从单次调用演进为持久化Agent时Prompt的措辞优化会进入回报递减区间——而上下文信息架构设计则提供了指数级的提升空间。2026年的核心技术栈将包含两大趋势一是**上下文压缩的实时性**模型需要动态判断哪些信息需要保留、哪些可以丢弃二是**跨模型上下文共享**不同Agent之间能够通过标准化的上下文协议进行信息交换。最后引用Karpathy在演讲中的一句话“别再问‘如何写更好的prompt’了开始问‘如何构建更好的上下文’。”这不仅是技术栈的升级更是**思维模型的转换**——从文案撰写者到操作系统架构师这才是2026年AI工程师的真正核心竞争力。

计算机Java毕设实战-基于 SpringBoot 的大学生在线评教打分系统的设计与实现基于 SpringBoot 的高校教学质量评价系统【完整源码+LW+部署说明+演示视频，全bao一条龙等】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/7/1 0:04:41 阅读更多

Dify 本地部署与 AI 应用开发实战：从零构建智能工作流

这次我们来看一个能让你快速上手 AI 应用开发的开源平台：Dify。它不是某个单一的模型，而是一个集成了大模型能力、可视化编排和 API 服务的低代码平台。简单来说，你可以用它像搭积木一样，把提示词（Prompt）、…

2026/7/1 0:03:40 阅读更多

抖音无水印下载终极指南：douyin-downloader让你快速保存任何视频

抖音无水印下载终极指南：douyin-downloader让你快速保存任何视频【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fall…

2026/7/1 0:03:00 阅读更多

《Debezium + Kafka Connect 实战：从零搭建 MySQL CDC 数据管道，踩坑全记录》

部分命令没有详细解释，不清楚的可以问AI一、背景与目标搭建一条从 MySQL 到 Kafka 的实时数据同步管道（CDC），为后续实时数仓（Flink Doris Paimon）提供数据源。技术选型：MySQL 5.7.28&#xff…

2026/7/1 1:28:49 阅读更多

3分钟学会Untrunc：快速拯救损坏视频文件的终极指南

3分钟学会Untrunc：快速拯救损坏视频文件的终极指南【免费下载链接】untrunc Restore a truncated mp4/mov. Improved version of ponchio/untrunc 项目地址: https://gitcode.com/gh_mirrors/un/untrunc 你是否曾经遇到过这样的情况：珍贵的婚礼视…

2026/7/1 1:28:49 阅读更多

Web作业（八）

API 接口文档 1. 技术架构 ┌─────────────────────────────────────────┐ │ 前端层 │ Vue 3 Element Plus │ │ │ (静态 HTML，CDN 引入) │ ├──────────────────…

2026/7/1 1:27:49 阅读更多

STC32G12K128的ADC到底准不准？实测普通精度ADC的电压采集与滤波实战

STC32G12K128的ADC精度实战：从硬件设计到软件滤波的全流程优化在嵌入式开发中，ADC（模数转换器）的精度问题往往成为项目推进的"拦路虎"。STC32G12K128作为一款性价比突出的国产单片机，其内置12位ADC的性能表现…

2026/7/1 1:27:49 阅读更多

open harmony 项目实战：用 AppStorage 实现轻量级页面路由和状态管理

open harmony 项目实战：用 AppStorage 实现轻量级页面路由和状态管理在 OpenHarmony 项目里，如果应用规模不是特别大，不一定一开始就要引入复杂路由方案。我的“语文视界”项目采用了一个更轻量的做法：用 AppStorage 记录当前页面…

2026/7/1 1:26:48 阅读更多

open harmony 项目实战：从 0 到 1 搭建一款语文学习 App

open harmony 项目实战：从 0 到 1 搭建一款语文学习 App 最近我用 OpenHarmony ArkTS 做了一款语文学习类应用，名字叫“语文视界”。它不是一个单纯的 Demo，而是包含首页推荐、诗词鉴赏、阅读、字典、学习中心、收藏记录、个人中心等多个模块…

2026/7/1 1:26:28 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/1 0:00:19 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/1 0:02:40 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/1 0:02:40 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/1 0:09:07 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/30 1:24:32 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/30 1:24:32 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

2026/7/1 0:00:19 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

2026/7/1 0:02:40 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

2026/7/1 0:02:40 阅读更多

相关文章

计算机Java毕设实战-基于 SpringBoot 的大学生在线评教打分系统的设计与实现 基于 SpringBoot 的高校教学质量评价系统【完整源码+LW+部署说明+演示视频，全bao一条龙等】

Dify 本地部署与 AI 应用开发实战：从零构建智能工作流

抖音无水印下载终极指南：douyin-downloader让你快速保存任何视频

《Debezium + Kafka Connect 实战：从零搭建 MySQL CDC 数据管道，踩坑全记录》

3分钟学会Untrunc：快速拯救损坏视频文件的终极指南

Web作业（八）

STC32G12K128的ADC到底准不准？实测普通精度ADC的电压采集与滤波实战

open harmony 项目实战：用 AppStorage 实现轻量级页面路由和状态管理

open harmony 项目实战：从 0 到 1 搭建一款语文学习 App

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

计算机Java毕设实战-基于 SpringBoot 的大学生在线评教打分系统的设计与实现基于 SpringBoot 的高校教学质量评价系统【完整源码+LW+部署说明+演示视频，全bao一条龙等】