从模型、Agent 到 MCP：这个 10.7k Star 项目，把 AI 工程学习路线重新铺了一遍

发布时间：2026/5/26 11:46:48

导读最近 GitHub 上有个项目涨得很快https://github.com/rohitg00/ai-engineering-from-scratch。它不是那种“接几个大模型 API做一个聊天机器人”的教程也不是单纯讲论文、讲概念的资料合集。它更像是一套完整的 AI 工程训练路线从数学基础、机器学习、深度学习、Transformer、LLM、RAG、Agent、MCP一直到生产部署、安全与对齐。根据项目资料这套内容包含20 个阶段、435 节课约 320 小时覆盖 Python、TypeScript、Rust、Julia。每节课不是只讲知识点而是要求学习者完成代码实现并产出可复用的 Prompt、Skill、Agent 或 MCP Server。这类项目为什么值得测试开发关注不是因为它又是一个热门开源项目也不是因为 Star 数好看而是因为它暴露了一个很现实的问题很多团队已经开始用 AI 写用例、生成脚本、做知识库问答、接入 Agent 工具链但真正到了工程落地阶段问题往往不在“模型会不会回答”而在于系统链路能不能复现生成结果能不能验证工具调用能不能追踪知识库回答能不能回放 Agent 执行失败后能不能定位 AI 生成的测试资产能不能进入真实研发流程这些问题已经不是单纯会用 AI 工具就能解决的了。它们开始进入测试开发熟悉的领域工程质量、链路治理、自动化验证和平台化沉淀。一、这个项目真正有价值的地方现在很多 AI 资料都有一个共同问题知识点是散的。今天看一篇 Transformer 解析。明天收藏一个 RAG 项目。后天跑一个 Agent Demo。再过几天又看到 MCP 工具接入方案。每个东西单独看都不难但一旦要做成企业里的可交付系统问题就出来了。比如你能跑通一个聊天机器人但解释不清楚为什么某些问题会幻觉。你能接入向量数据库但不知道切片、召回、重排到底该怎么测。你能让 Agent 调用工具但不知道调用失败后应该如何回滚、重试和记录上下文。你能让 AI 生成自动化脚本但不知道如何判断这批脚本是否稳定、可维护、可回归。很多 AI 项目从 Demo 到生产卡住的不是模型能力而是工程链路。这个项目的价值就在这里。它不是只让你知道“某个技术存在”而是把 AI 工程拆成了一条从底层到交付的路线数学基础机器学习深度学习 Transformer LLM RAG 工具调用 MCP Agent 多智能体生产部署安全与评测更关键的是它每一节课都要求产出东西。项目资料里提到每节课会形成可复用成果最终沉淀为 prompts、skills 等工具资产并且可以集成到 Claude、Cursor、Codex、OpenClaw、Hermes 等工具链中。这个设计思路对测试开发团队很有参考价值。因为测试开发最怕的不是学了多少概念而是学完以后没有资产沉淀。二、普通 AI 教程为什么很难支撑工程落地很多 AI 教程看完以后会让人产生一种错觉好像 AI 应用很简单。一个 API Key 一个 Prompt 一个向量库一个前端页面一个工具调用函数Demo 就出来了。但真实项目不是这样。企业里的 AI 应用一旦进入业务流程就要面对很多工程问题输入不稳定输出不可控知识更新频繁权限边界复杂模型版本变化上下文长度受限工具调用失败多轮任务状态丢失用户问题不可预测评测标准难统一这些问题并不是“提示词写好一点”就能解决。它需要系统性的工程设计。比如一个 RAG 问答系统表面上看是用户提问 → 检索文档 → 拼接 Prompt → 模型回答但从测试视角看至少要拆成文档解析是否正确文本切片是否合理向量召回是否命中关键证据重排是否把有效内容排到前面 Prompt 是否引导模型基于证据回答回答是否引用了正确来源没有答案时是否能拒答知识更新后历史问题是否回归正常这已经不是一个“AI 功能”而是一条完整质量链路。同样一个 Agent 系统表面上看是用户给任务 → Agent 拆解任务 → 调用工具 → 输出结果但真正要测的是任务理解是否准确计划拆解是否合理工具选择是否正确参数生成是否符合 schema 工具失败后是否能处理是否出现无效循环是否存在越权调用最终结果是否可验证执行轨迹是否能回放所以AI 工程落地不是“会接模型”就够了。更准确地说它要求团队把 AI 的不确定性拆成可观察、可验证、可回归的工程问题。三、测试开发人应该从哪里看这个项目测试开发人看这个项目不建议把它当成算法课程从头硬啃。更合理的方式是把它看成一张 AI 工程能力地图。测试开发人不一定要从第一天就自己训练大模型。但至少要能看懂几个关键问题大模型应用的请求链路是什么 RAG 的召回和生成怎么拆开评估 Agent 的执行轨迹怎么记录 MCP 工具描述会不会影响模型调用质量 AI 生成的测试资产如何做规则校验和回归验证模型版本变化后怎么判断业务效果有没有退化这些问题和传统测试开发的能力并不冲突。相反它们只是把原来的测试对象换了。过去测的是接口、页面、App、数据库、微服务。现在还要测模型输出知识库链路工具调用智能体任务多模态理解 AI 生成代码 AI 自动化测试平台测试对象变了但底层能力还是工程能力。四、AI 工程链路里测试最容易被忽略的部分很多团队做 AI 项目前期最关注的是“效果”。能不能答出来能不能生成代码能不能帮我写用例能不能自动执行任务这些当然重要但从测试开发角度看只看效果远远不够。真正影响上线质量的往往是下面几个点。1. 可复现性AI 系统最大的问题之一是同一个问题多问几次结果可能不一样。这在 Demo 阶段没什么问题但在生产环境就很麻烦。比如同一个需求文档今天生成 80 条用例明天生成 95 条。同一个接口定义第一次生成了异常场景第二次漏掉了鉴权场景。同一个知识库问题不同模型版本给出的结论不一致。同一个 Agent 任务有时调用工具有时直接编答案。测试开发要做的不是要求 AI 每次逐字一致而是要定义可接受的稳定性范围。比如关键场景是否稳定覆盖核心断言是否一致引用证据是否正确高风险问题是否拒答工具调用路径是否符合预期输出结构是否满足下游系统消费AI 系统的回归测试不应该只比对文本而要比对结构、证据、行为和业务结果。2. 可观测性传统系统出问题可以看日志、查数据库、抓接口、看调用链。AI 系统如果没有观测设计问题定位会非常困难。用户只会说一句“它答错了。”但研发和测试需要知道用户原始问题是什么系统改写后的问题是什么检索到了哪些文档哪些文档进入了上下文最终 Prompt 是什么模型返回了什么是否调用了工具工具返回了什么后处理逻辑做了什么最终答案为什么会变成这样如果这些信息没有记录AI 问题就很难复盘。所以测试开发在 AI 项目里一定要推动 Trace 设计。不是只记录接口日志而是记录完整推理链路中的工程事件。3. 可验证性AI 很擅长生成内容但生成内容不等于结果正确。尤其在测试场景里问题会更明显。AI 生成测试用例常见问题包括用例重复前置条件缺失步骤不可执行预期结果模糊边界值遗漏异常场景不足和需求字段对不上无法导入测试管理平台AI 生成自动化脚本常见问题包括选择器不稳定断言过弱等待机制粗糙异常处理缺失环境依赖写死数据清理缺失脚本跑通一次但不能长期维护AI 生成接口测试代码常见问题包括只覆盖正常流缺少鉴权测试缺少错误码校验缺少幂等验证缺少并发场景缺少数据隔离没有契约变更检查所以AI 生成之后必须接校验层。可以是规则校验也可以是执行校验还可以是评测集对比。没有校验层的 AI 生成只能算辅助草稿不能算工程交付。4. 可回归性AI 项目一旦进入迭代会频繁变化Prompt 会改模型会换知识库会更新切片策略会调整工具描述会优化 Agent 规划逻辑会变化后处理规则会升级每次变化都可能影响历史效果。这时候就必须有回归集。比如标准问题集标准需求文档标准接口定义标准页面结构标准缺陷样本标准业务流程高风险越权问题历史线上问题样本每次改动以后要能跑一遍评测看看核心指标有没有退化。AI 系统如果没有回归集后期会越改越不敢动。这点和传统自动化测试非常像。五、从 RAG、Agent 到 MCP质量问题怎么拆如果从测试开发视角看AI 工程可以拆成三条主线。1. RAG重点不是“能回答”而是证据链是否可靠RAG 系统最容易出现的问题是答案看起来合理但证据并不可靠。测试时不能只问“回答对不对”还要拆开看文档有没有解析成功切片有没有切断关键信息召回有没有命中正确段落重排有没有把关键证据放前面 Prompt 有没有要求基于证据回答答案有没有引用正确来源没有证据时是否拒答不同问法是否能命中同一知识点RAG 的测试指标也不能只看准确率。更应该关注召回命中率引用正确率答案忠实度拒答准确率知识更新生效时间多轮追问一致性相似问题稳定性这部分很适合测试团队做成评测平台。2. Agent重点不是“能执行”而是过程是否可控Agent 比普通 LLM 应用复杂得多。因为它不是一次问答而是一个多步骤执行过程。测试 Agent 时不能只看最终输出还要看执行轨迹。至少要记录任务理解计划拆解工具选择参数生成工具返回中间状态失败处理最终总结常见问题包括任务拆解过细导致步骤膨胀工具选择错误调用了不相关能力参数生成错误接口返回失败工具失败后继续编造结果多轮执行中上下文丢失反复尝试同一条无效路径最终答案掩盖了中间错误Agent 系统的测试很像过去测试复杂工作流系统。只是现在工作流不是完全由代码写死而是由模型动态生成。这也是测试难度上升的地方。3. MCP重点不是“接上工具”而是工具边界是否清楚MCP 让模型可以调用外部工具这对测试开发很重要。因为测试团队手里本来就有很多工具接口测试平台自动化测试平台测试数据平台缺陷系统 CI/CD 日志平台数据库查询工具浏览器自动化 App 自动化性能测试平台这些工具一旦封装成 MCP ServerAI 就可以参与到真实测试流程里。但这里有一个关键问题工具不是接上就完事了。要测工具描述是否清晰参数 schema 是否严谨默认值是否安全错误信息是否可理解权限是否最小化敏感数据是否脱敏调用日志是否可审计失败结果是否能被模型正确处理很多 Agent 调用失败不是模型不行而是工具描述和接口设计对模型不友好。这部分正好是测试开发可以发挥作用的地方。六、测试开发人的学习路径不应该从“追热点”开始面对这种大项目最容易犯的错是从头收藏然后从来不学。或者今天看 RAG明天看 Agent后天看 MCP最后每个都知道一点但都做不深。对测试开发人来说更适合按工程问题来学。第一层先看懂 LLM 应用链路不需要一开始就训练模型。先搞清楚请求如何进入模型 Prompt 如何拼接上下文如何管理结构化输出如何约束函数调用如何触发模型参数如何影响结果流式输出如何处理模型异常如何降级这一层解决的是“看懂系统”。第二层把 RAG 当成一个可测试系统重点看文档解析切片策略向量召回重排上下文拼接答案生成引用溯源拒答策略这一层解决的是“回答为什么对为什么错”。第三层把 Agent 当成一个动态工作流重点看任务拆解工具选择工具调用状态管理失败处理执行轨迹权限边界任务完成率这一层解决的是“过程是否可控”。第四层把 MCP 当成测试工具接入层重点看工具封装参数设计错误处理权限控制日志审计客户端兼容工具调用评测这一层解决的是“AI 如何进入真实测试流程”。第五层做评测和回归重点看标准测试集黄金答案行为断言结构校验批量评测版本对比线上问题回放质量看板这一层解决的是“系统能不能长期维护”。七、可以落到测试团队的几个方向这类项目看完以后最好不要只停在文章和收藏夹里。测试团队可以尝试沉淀几类资产。方向可以沉淀的资产价值用例生成需求解析 Prompt、用例规则校验器、用例评测集提升用例设计效率接口测试Swagger 解析工具、接口测试生成 Agent、异常参数生成器提升接口覆盖率Web 自动化页面理解 Prompt、Playwright 脚本生成器、选择器稳定性检查提升脚本生成质量App 自动化页面结构识别、Appium 动作生成、失败截图分析降低移动端自动化维护成本RAG 评测标准问答集、引用校验、幻觉检测、拒答测试保障知识库问答质量Agent 测试轨迹记录、工具调用断言、任务完成率评测让智能体执行过程可控MCP 工具测试平台 MCP Server、数据平台 MCP Server、CI/CD MCP Server把 AI 接入测试基础设施这些资产一旦沉淀下来团队使用 AI 的方式就会发生变化。不再是每个人各自写 Prompt而是形成统一的测试能力组件。八、回到工程本身AI 项目的质量问题最后还是工程问题这个项目值得关注不是因为它把 AI 知识点列得很全而是因为它的组织方式很工程化。它没有停在“知道一个概念”而是要求你把算法写出来把代码跑起来把结果测出来把能力封装起来把组件交付出去这套方式和测试开发的工作习惯是接近的。测试开发真正要补的也不是“多背几个 AI 名词”而是把下面几件事想清楚AI 系统的输入边界在哪里 AI 系统的输出如何验证 AI 系统的执行过程如何观测 AI 系统的失败如何定位 AI 系统的质量如何度量 AI 系统的能力如何沉淀到团队工具链里过去我们做自动化测试核心不是写几条脚本而是让测试能力进入研发流程。现在做 AI 测试开发也不是简单让大模型帮忙写点东西而是要把 AI 能力纳入工程体系。这中间有很多具体工作给 Prompt 做版本管理给 RAG 做评测集给 Agent 做执行轨迹给 MCP 工具做权限边界给生成代码做静态检查给生成用例做规则校验给模型切换做回归测试给线上问题做样本沉淀这些事情看起来不炫但决定了 AI 项目能不能真正上线、能不能长期维护。所以测试开发人看这类项目不用只盯着“从零训练模型”。更应该关注它背后的工程方法怎么拆模块怎么留证据怎么做验证怎么沉淀资产怎么把一次性 Demo 变成可维护系统这才是对测试开发更有价值的部分。结尾AI 工具会继续变快模型能力也会继续变强。但企业项目里真正麻烦的通常不是“有没有模型”而是模型进入业务流程以后谁来保证它稳定、可控、可验证。这正是测试开发可以切进去的位置。未来很多 AI 应用表面上是模型能力竞争底层其实还是工程质量竞争。谁能把 RAG、Agent、MCP、评测、回归、观测、权限这些环节串起来谁就更容易把 AI 从 Demo 推到生产。对测试开发人来说接下来值得投入的方向不是单纯学习某一个工具而是建立一套新的判断能力看到一个 AI 功能能拆出链路。看到一个 Agent能看懂执行轨迹。看到一个 RAG 系统能判断证据链是否可靠。看到一个 MCP 工具能识别权限和参数边界。看到一批 AI 生成结果能设计校验和回归方案。这就是 AI 工程进入测试开发之后真正会拉开差距的地方。

如何高效解析QQ音乐数据：开发者实战指南

如何高效解析QQ音乐数据：开发者实战指南【免费下载链接】MCQTSS_QQMusic QQ音乐解析项目地址: https://gitcode.com/gh_mirrors/mc/MCQTSS_QQMusic 还在为获取QQ音乐数据而烦恼吗？面对复杂的API接口和频繁更新的加密算法，你是否感到…

2026/5/26 11:46:48 阅读更多

Confluence：从团队知识库到高效协作的实践指南

1. Confluence：团队协作的"数字大脑" 第一次接触Confluence时，我把它当成了另一个文档管理工具。直到带领团队完成三个项目周期后，我才真正理解它为何被称为"企业级知识中枢"。想象一下：新入职的工程师不再需…

2026/5/26 11:46:48 阅读更多

免费开源的AI软件怎么把企业级后端塞进单机包察元AI三层架构总

桌面 AI 应用做单机版的方案不少，但绝大多数是把 Web 前端套个 Electron 壳，后端要么在云端，要么外挂本地推理服务。察元AI智能体桌面单机版走了不一样的路：把一整套企业级后端打包进了 Tauri 安装包里。这一篇讲清楚这个三层架构…

2026/5/26 11:46:27 阅读更多

UE5 C++ DeveloperSettings配置治理实战指南

1. 为什么开发者设置不是“高级玩家专属”，而是每个C项目起步的必经门槛在UE5项目开发中，我见过太多团队把DeveloperSettings当成一个“可有可无的彩蛋”——只在调试崩溃时翻两页文档，或者干脆绕开它，硬编码所有开关逻辑。直到某…

2026/5/26 12:39:05 阅读更多

Lovable农业监测系统API集成实战：3小时打通微信小程序+智慧灌溉PLC（附GitHub认证SDK）

更多请点击： https://kaifayun.com 第一章：Lovable农业监测系统API集成实战：3小时打通微信小程序智慧灌溉PLC（附GitHub认证SDK） Lovable农业监测系统提供标准化RESTful API与轻量级WebSocket双通道通信能力&#xff0…

2026/5/26 12:38:19 阅读更多

vue-quick-calendar实战：从零封装一个高定制化Vue日历组件（附源码解析）

1. 为什么需要自己封装Vue日历组件在开发Web应用时，日历组件是一个非常常见的需求。你可能需要它来做预约系统、日程管理、或者简单的日期选择。虽然市面上有很多现成的日历组件库，比如FullCalendar、V-Calendar等，但很多时候这些组件要么功…

2026/5/26 12:37:59 阅读更多

GitHub 6k Star，挖出49个CVE：这个国产AI代码审计工具杀疯了！

来自：推荐一个程序员编程资料站：http://cxyroad.com副业赚钱专栏：https://xbt100.top2024年IDEA最新激活方法后台回复：激活码CSDN免登录复制代码插件下载：CSDN复制插件以下是正文。我是小路。最近看到一个挺有意思的 A…

2026/5/26 12:37:18 阅读更多

AI在渗透测试中的应用与性能对比分析

1. 渗透测试与AI结合的背景解析网络安全领域近年来面临的最大挑战之一，就是如何应对日益复杂的攻击面和安全漏洞。传统的渗透测试方法高度依赖安全专家的经验积累，一个资深渗透测试工程师的培养周期往往需要3-5年。这种人才短缺与快速增长的网络安全需求…

2026/5/26 12:37:18 阅读更多

Python 开发者五分钟上手教程使用 Taotoken 调用多款大模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Python 开发者五分钟上手教程使用 Taotoken 调用多款大模型对于需要灵活调用不同大模型的 Python 开发者而言，逐一对接…

2026/5/26 12:37:18 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章

如何高效解析QQ音乐数据：开发者实战指南

Confluence：从团队知识库到高效协作的实践指南

免费开源的AI软件怎么把企业级后端塞进单机包 察元AI三层架构总

UE5 C++ DeveloperSettings配置治理实战指南

Lovable农业监测系统API集成实战：3小时打通微信小程序+智慧灌溉PLC（附GitHub认证SDK）

vue-quick-calendar实战：从零封装一个高定制化Vue日历组件（附源码解析）

GitHub 6k Star，挖出49个CVE：这个国产AI代码审计工具杀疯了！

AI在渗透测试中的应用与性能对比分析

Python 开发者五分钟上手教程使用 Taotoken 调用多款大模型

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

ssm高校普法系统（10101）

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

免费开源的AI软件怎么把企业级后端塞进单机包察元AI三层架构总