AI 工程完整版图：8层架构深度解析（收藏版，小白/程序员必备）

发布时间：2026/6/30 9:27:10

本文深入剖析了生产级 AI 系统背后的 8 层工程架构涵盖模型基础、推理服务、上下文管理、Agent 框架、检索记忆、适配训练、评估观测及安全可靠等关键层面。每层都详细介绍了核心技术点如分词、嵌入、KV 缓存、Agent 循环、RAG 管道等并提供了代码示例。对于希望系统化学习大模型工程实践的小白或程序员本文是不可或缺的参考资料。AI EngineeringAI 工程现在涵盖的完整版图以及每一层可以深入研究的方向。AI 工程生产级 AI 系统背后的 8 层工程架构两个团队可以在同一个基础模型上构建却交付出完全不同的产品。模型是固定的输入真正的差异在于围绕它的八层工程——从 Token 如何被服务到 Agent 循环如何被控制。我们把完整的层次结构梳理到了一张图里Model Foundations模型基础层涵盖了模型如何将文本转化为概率Tokenization分词在模型处理之前将文本拆分成子词单元Token 数量直接决定了成本和上下文限制。Embeddings嵌入将这些 Token 映射到高维向量空间语义相近的内容在空间中距离更近。Pretraining预训练从原始文本中学习语言而 Post-training后训练包括 SFT、RLHF塑造模型的行为和对齐。Context Window上下文窗口是模型一次性关注的固定 Token 预算由 Prompt、历史记录和输出共享。Logits 是词表上的原始分数Sampling采样见下文将其转化为实际输出的 Token。Sampling采样控制如何从分布中抽取下一个 Token其中 Temperature 和 Top-p 在确定性和多样性之间做取舍。Inference and Serving推理与服务层涵盖了将模型权重转化为低成本、高速 Token 的技术栈Prefill预填充并行处理整个 Prompt属于计算密集型而 Decode解码逐个生成 Token属于内存密集型。KV Cache键值缓存存储过去 Token 的 Attention 键和值避免每一步都重新计算。Prompt and Prefix Caching提示和前缀缓存复用共享前缀的 KV 状态使得固定的 System Prompt 在首次调用后几乎零成本。Speculative Decoding推测解码使用小型草稿模型提出多个候选 Token由主模型并行验证从而获得净加速。Continuous Batching连续批处理在其他请求完成时立即填入新请求的 GPU 插槽而不是等待整个批次完成。Quantization量化以更少的位数FP8、AWQ存储权重减少内存占用并加速计算FP8 可在新一代 GPU 上原生运行。Paged Attention分页注意力将操作系统风格的分页技术应用于 KV Cache消除内存碎片是 vLLM 背后的核心技巧。TTFT 和 TPOT 分别衡量 Prefill 和 Decode 的速度两者都与原始吞吐量相互制衡。Context Engineering上下文工程层涉及管理模型在执行时实际看到的内容Context Budgeting上下文预算将窗口视为有限资源只在能提升回答质量的地方花费 Token。Context Rot上下文腐化是指随着窗口填满输出质量下降的现象通常远在硬性限制之前就已出现。Lost in the Middle中间迷失描述了模型对上下文开头和结尾关注最多中间部分的细节被低估的现象。Compaction and Summarization压缩与摘要将旧的历史记录浓缩为高保真摘要使 Agent 能在全新的窗口中继续工作。Context Offloading上下文卸载将大量细节推送到外部文件或存储中在窗口里只保留引用。Just-in-time Retrieval即时检索在需要数据的步骤才加载数据而不是一开始就把所有东西塞进去。Structured Note-taking结构化笔记让 Agent 在窗口之外写持久化笔记需要时再读回来。Agents and Harness EngineeringAgent 与框架工程层将无状态模型变成能完成任务的系统。Agent LoopAgent 循环运行 Think → Act → Observe 的循环ReAct 或 TAO直到任务完成。Tool Use and Function Calling工具使用与函数调用让模型发出结构化调用由框架执行并将结果反馈给模型。Thin Harness轻量框架信任模型保持基础设施最小化Thick Harness重量框架将控制逻辑写在代码中留给模型的自由度更少。Subagents and Orchestration子 Agent 与编排分拆出专注的 Agent各自拥有独立上下文使主 Agent 保持精简。MCP 是连接模型与工具和数据的标准接口替代了 N×M 的自定义集成。Skills, Hooks, and State技能、钩子与状态添加可复用的能力、生命周期触发器和跨步骤持久化的记忆。Planning versus Reacting规划 vs 反应是在预先制定计划和实时逐步决策之间的选择二者在速度和成本上各有取舍。Verification Loops验证循环使用规则、测试或 LLM 评判来审核 Agent 的输出确认其完成后才算数。Retrieval and Memory检索与记忆层为模型提供它从未在训练中见过的事实。RAG PipelinesRAG 管道在查询时检索相关文本块并在生成前将其添加到 Prompt 中。Chunking and Re-ranking分块与重排序将文档拆分成单元然后根据真实相关性对检索到的候选项重新排序。Vector DB向量数据库存储嵌入向量并提供大规模最近邻搜索。Hybrid Search混合搜索将关键词匹配和向量匹配相结合同时捕获精确术语和语义匹配。Knowledge Graphs知识图谱对实体和关系建模使检索能够沿着关联链路行走而不仅仅依赖相似性。Episodic and Temporal Memory情景记忆与时序记忆记录发生了什么以及何时发生使 Agent 能够回忆过去的会话以及事实的变化过程。Agentic RetrievalAgent 式检索让 Agent 自主发起和优化查询而不是运行单次固定检索。Adaptation and Training适配与训练层在 Prompting 和上下文工程不够用时修改模型权重Fine-tuning微调SFT 在输入-输出样本上训练模型教会它格式和行为。LoRA 和 QLoRAPEFT 训练小型适配器权重而非完整模型大幅降低成本和内存开销。RLHF 和 DPO 根据人类偏好进行优化其中 DPO 跳过了单独的奖励模型。GRPO 和 Reward Models奖励模型根据奖励信号进行训练适用于有评分函数但没有偏好标签的场景。Distillation知识蒸馏训练小型学生模型去模仿大型教师模型以更低成本保留大部分精度。Synthetic Data合成数据在真实标注数据稀缺时用模型生成训练样本。Evaluation and Observability评估与可观测性层帮助追踪一次变更到底是改进了还是悄悄搞坏了什么。Offline and Online Evals离线与在线评估在上线前运行固定测试集上线后从真实流量中获取实时指标。LLM-as-JudgeLLM 评判使用模型对规则无法评分的开放式输出进行评分。Agent Trajectory EvalAgent 轨迹评估评判 Agent 走过的完整路径而不仅仅是最终答案。Tracing and Spans追踪与跨度记录每一步、每次工具调用和每个 Token以便定位运行出错的环节。Token and Cost TrackingToken 与成本追踪将开销归因到每个请求和每一步找出哪些环节最贵。Regression Testing回归测试在 Prompt 或模型变更后重新运行 Benchmark捕捉无声的质量退化。Safety, Security and Reliability安全性与可靠性层确保系统在面对真实用户时保持诚实可靠。Prompt Injection提示注入是不受信任的输入夹带指令劫持模型行为。Jailbreaks越狱是精心构造的 Prompt让模型绕过自身的安全约束。Hallucination Mitigation幻觉缓解使用 Grounding接地、检索和验证来捕捉模型自信满满的错误回答。Structured Outputs结构化输出将生成约束为有效的 JSON 或 Schema以便下游代码能正确解析。PII and Data Privacy ControlsPII 与数据隐私控制在数据进入或离开模型之前检测并脱敏敏感信息。Fallbacks and Rate Limits降级与速率限制添加多供应商故障切换和请求上限使系统在高负载下也能保持可用。Guardrails护栏是输入和输出过滤器阻止不安全或违反策略的请求和响应。推理层是大部分生产成本隐藏的地方。在运行 Llama 70B 的 H100 上单个请求在 Prefill 阶段达到 92% 的 GPU 利用率随后在同一硬件上瞬间降至 Decode 阶段的 28%。工作负载变了GPU 没变。没有任何单一技术能大幅改动这个数字。将八九种技术叠加——横跨压缩、注意力、解码、缓存和路由——才是相对朴素 FP16 推理缩小 5-8 倍成本差距的关键。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

WebServer应急响应实战：从日志分析到攻击溯源完整指南

1. 项目概述：从一次真实的WebServer应急响应说起上周，我接到一个紧急电话，客户反馈他们的官网间歇性出现“502 Bad Gateway”错误，同时有用户投诉账户被异常登录。作为安全响应人员，我的第一反应不是立刻去重启服务&am…

2026/6/30 9:27:10 阅读更多

ADS54J42EVM评估板深度解析：从硬件拆解到性能优化的高速ADC实战指南

1. 评估板开箱与核心价值解析拿到ADS54J42EVM评估板，对于从事高速数据采集系统设计的工程师来说，就像是拿到了一把打开高性能模数转换器（ADC）世界的钥匙。这块板子的核心价值，在于它完整地呈现了如何将一颗理论性能卓越…

2026/6/30 9:26:05 阅读更多

U-Net架构解析：如何用对称编码-解码网络革新生物医学图像分割

1. U-Net为什么能成为生物医学图像分割的标杆？ 第一次看到U-Net那个对称的U型结构时，我就在想：为什么这个看似简单的设计能在医学图像领域所向披靡？后来在实际项目中用多了才发现，它的精妙之处在于完美平衡了全局上下文…

2026/6/30 9:26:05 阅读更多

AI时序预测：中金重新评估黄金牛市——Transformer模型

摘要：本文通过AI多因子预测模型，结合中金研究观点、美国通胀数据、货币政策框架以及黄金历史定价规律，构建黄金市场动态推演模型，分析近期金价持续调整的底层逻辑，并评估未来黄金趋势是否发生根本改变。一、AI特征工程…

2026/6/30 10:41:31 阅读更多

基于奇异谱分析（SSA）的GRACE数据连续化重建：从理论到实践

1. 奇异谱分析（SSA）与GRACE数据重建基础第一次接触GRACE卫星数据时，我被那些神秘的空缺值搞得头疼不已。就像看一部精彩电视剧突然跳集，水文研究中最关键的连续时间序列就这样被硬生生打断。传统线性插值方法就像用马克笔涂掉缺…

2026/6/30 10:41:31 阅读更多

当代码邂逅日落：技术人如何用逻辑诠释不可言说的美

1. 当代码成为另一种形式的日落我第一次感受到代码的美，是在一个加班的傍晚。窗外夕阳把整个办公室染成橘红色，而我刚刚解决了一个困扰团队两周的算法问题。那一刻突然意识到，屏幕上优雅的递归函数和天际线的渐变色彩，竟然有着相…

2026/6/30 10:40:30 阅读更多

Java CRUD自动生成怎么最快？AI读懂项目上下文是关键

增删改查，Java项目里出现频率最高的代码类型。每个中型系统少则几十张表，多则上百张，每张表背后意味着Controller接口、Service实现、DAO操作、DTO对象、参数校验、异常处理——代码高度重复，却不能简单复制粘贴，因为字…

2026/6/30 10:40:30 阅读更多

DamaiHelper技术深度解析：Python+Selenium如何实现300%抢票效率提升

DamaiHelper技术深度解析：PythonSelenium如何实现300%抢票效率提升【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 在热门演唱会门票秒空的数字时代，DamaiHelper作为一款基…

2026/6/30 10:40:30 阅读更多

STM32L431 STOP2模式实战：从RTC唤醒到外设重配的完整流程

1. STM32L431 STOP2模式入门指南第一次接触STM32L431的低功耗模式时，我被STOP2模式的超低功耗特性惊艳到了。实测下来，在3.3V供电条件下，STOP2模式下的电流消耗可以低至1μA左右，这对于需要长期电池供电的物联网设备简直是福音。…

2026/6/30 10:40:30 阅读更多

Google限制Meta使用Gemini模型凸显AI授权竞争白热化

近日，据多家科技媒体报道，Google已对Meta施加限制，禁止其在部分产品或服务中直接使用Gemini AI模型。这一消息一经传出，便在人工智能领域掀起波澜，凸显出当前大厂间AI模型授权竞争的激烈程度。新闻导语：根…

2026/6/30 0:01:09 阅读更多

XGBoost超参数实战：从理论到调优策略

1. XGBoost超参数基础认知第一次接触XGBoost时，我被它那密密麻麻的参数列表吓到了。这感觉就像面对一架波音747的驾驶舱——每个按钮都可能有神奇的效果，但按错了就可能坠机。经过多年实战，我发现其实掌握十几个核心参数就能解决90%的问题。…

2026/6/30 0:02:51 阅读更多

ChatGPT函数调用从入门到高并发落地：3步完成生产级集成，附可直接运行的TypeScript+Python双模版

更多请点击： https://kaifayun.com 第一章：ChatGPT函数调用的核心原理与演进脉络函数调用（Function Calling）是大语言模型从纯文本生成迈向结构化交互的关键跃迁。其本质并非模型原生具备“执行代码”的能力，而是通…

2026/6/30 0:04:11 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/30 0:04:06 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/30 1:24:32 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/30 1:24:32 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/29 13:06:32 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/29 13:32:14 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/29 13:32:14 阅读更多

相关文章

WebServer应急响应实战：从日志分析到攻击溯源完整指南

ADS54J42EVM评估板深度解析：从硬件拆解到性能优化的高速ADC实战指南

U-Net架构解析：如何用对称编码-解码网络革新生物医学图像分割

AI时序预测：中金重新评估黄金牛市——Transformer模型

基于奇异谱分析（SSA）的GRACE数据连续化重建：从理论到实践

当代码邂逅日落：技术人如何用逻辑诠释不可言说的美

Java CRUD自动生成怎么最快？AI读懂项目上下文是关键

DamaiHelper技术深度解析：Python+Selenium如何实现300%抢票效率提升

STM32L431 STOP2模式实战：从RTC唤醒到外设重配的完整流程

Google限制Meta使用Gemini模型 凸显AI授权竞争白热化

XGBoost超参数实战：从理论到调优策略

ChatGPT函数调用从入门到高并发落地：3步完成生产级集成，附可直接运行的TypeScript+Python双模版

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Google限制Meta使用Gemini模型凸显AI授权竞争白热化