AI基于Spec开发是巨坑？

发布时间：2026/6/1 6:12:52

基于Spec的编程AI是非常容易跑偏的因为上下文腐烂是不可避免的腐烂前会很听话但越跑越“固执”最后浪费Tokens浪费时间将整个系统都基本搭建起来了才发现有设计错误可能是设计方法或结构上 - 代码写不下去可能就会显现出来可能是应用场景设计错误 - 只有最后做运行测试时才出现可能是对某些领域上的知识的理解上 - 经常出现在核心内容的实现时还有一点没有记录下来的好处由于上下文腐烂所以测试结果报告是让AI“回忆”自己干到哪里的最省Tokens的线索。缘起AI 结对编程的思考我们是一个“快鱼吃慢鱼”的行业一切都讲求“唯快不破”。与 AI结对开发写代码变成了从属工作这种繁重又耗时的事可以由 AI 接管。此时思考、架构与流程变得更加重要。如何让思路保持高速推进不在后期发现前期错误而大量返工正是因为开篇的这个小经历引发了我对这与AI结对的工程化过程的深入思考。读过我之前文章的朋友可能会了解我正采用20年前的瀑布流的方式作为当下与AI协作的标准流程。瀑布流的好处是严谨文档丰富从理论是丰富的文档可以充当AI的“记忆”至少不要让AI跑偏。但要让AI完全写出符合我们要求又能符合AI要求的文档却不是一件容易的事简单的办法是用Qoder它有一个Wiki功能可以一键式生成文档文档之丰富是当下用过的AI编程IDE中最好的但问题是在你原有架构上生成没有的时候怎么办MindX2 的设计在v1.0上做了很大的改进几乎只是保留了少部分的内容绝大部分都进行了重新设计。在这个过程中我也算是幸运地找到了一个相对可用的还算是能达到“高速推进” 的开发方法 —— 基于AI的TDD。做法是这样的先将基本的概念与想法写下来不要写实现也就是概念设计目的是说明白你想要干什么不要说怎么干怎么干就留给AI去发挥可能会有惊喜。概念设计是一个重要的边界限制AI不要跑出这个边界。建立一份设计哲学说明将你要AI遵守的底层设计逻辑写到这文件中也可以将这份文件做成智能体放入IDE。保持每份文件的长度不要超过400行实测超过6种模型Opus和Gemini还能勉强可以在400以上的文档还保持理解力其它的基本就会胡思乱想而且超长文会导致Tokens疯狂焚烧多文件时要建立一个简单索引这个可以让AI做这个索引是为了防止AI的上下文窗口爆了以后给它重新“回忆”起自己做过啥而且能以最少Tokens的代价回归到你的压缩点上下文压缩上。用同样的方法做架构设计完成后让AI根据架构设计来编程尽量不要让AI回参概念设计否则AI会死得很快因为此时文件已经很多了。好了要进入整体了当你与AI设计出上述这堆文件之后要让AI正确执行可不是容易的事。不要相信开发商说Spec可以搞定一切AI会很聪明那是骗你入局的在不进行工程化的DEMO型小项目确实能跑。但在工程化开发的前提下没有方法用Spec自动编程会成为一个巨坑删项目的情况是一定会发生的。有了架构设计让AI跑如果架构不大AI是可以跑完但你ReView代码就会发现好多地方可能是会被注有 TODO 的。最查的情况下是如果AI思考时出现“我用更简单的方式来这现这个功能” 那就意味着它开始要写垃圾代码了这个可是一定要注意的。所以我在它的“设计哲学中”一定会补充以下的反向提示词- 禁止编造内容不懂或有疑惑就停下来问 - 禁止采用任何形式的所谓 “简单方法” 处理问题虽然如此但是你的AI仍然是会【说谎】的不要相信它说它完美地做完了所有的工作它的自动编程充其量也就是完成了40~50%。经过了多番摸索我用TDD真的让它能完美工作至少完成率与准确率可以达到90%以上1. 场景测试 → 早期纠错当AI编写完架构设计后马上让它的开发场景测试这个过程你不能懒必须深度参与因为场景测试就是可以跑的【需求】也就是你对AI的【验收标准】有了这份文件你可以大程度上去检验架构与需求之间的适配程度。而不是在所有代码完成后人手去跑才发现不能用那个时候你只能重来所有耗费的Tokens就是白烧。同样的 AI 写完初期代码就要让它直接编写场景测试代码只有场景测试全绿才进入下一步。2. Mock → 跳过实现模拟完整运作Mock 是我以前又爱又恨的一个做法爱是它真能模拟出不少问题恨是要写好多的东西但在AI结对时代Mock变成一个绝对的杀手锏不是在后期测试时用而是在开发期用你要场景测试全绿核心代码怎么做核心代码中肯定有大量机制性的内容有些内容可能是写着写着你都要去找资料看找思路开拓认知才可能将核心做得更加健壮。写核心是最容易出现思路打岔钻牛角尖的也是最耗时的最可怕的是想着想着就会与的整体架构出现巨大偏差。Mock先行可以很好地防止这种情况的发生Mock在不实现时是什么它就是一个实现的【边界】这个边界是由场景直接界定的所有的核心类需要你仔细思考的地方你都可以写成Mock先让场景跑通相信我这样做真的会少走弯路加速前行的。Mock → 模拟程序已能正常投入运作 → 观察整体完整性与可用性不需要等待核心代码实现就能验证整个系统是否跑得通。3. 聚焦核心 → 保持思路一致性当场景全通后就集中经历用TDD的方式让AI为每个 Mock 的方法写单元测试最后根据测试来一个一个方法地实现让Mock【升级】成为真实类。这样AI跑偏的机率是很低的因为让测试通过几乎就是AI的本能跟本都不用我们讲在测通方法的过程中它也会建立相应的上下文保持后续工作的一至性。周边代码完成 → 场景全绿 → 集中精力攻克核心难点不会因为某些技术需要研究或学习而打断思路的一致性。核心技术挑战可以集中攻克而其他部分已经验证完毕。本质将思考验证与代码实现解耦让思考的错误在思考阶段就被发现。方法论流程第四阶段精雕细琢性能优化边界情况处理代码重构与清理第三阶段渐进式实现重复选择一个 Mock 对象验证全绿用红绿 TDD 实现真实核心对象替换 Mock → Real第二阶段骨架搭建建立项目基本框架编写周边代码配置、工具类、基础设施编写场景测试使用 Mock 替代核心对象目标所有场景测试全绿 Pass第一阶段架构设计与技术验证架构设计实验性测试项目验证关键技术可行性小结1. 架构验证前置在投入大量开发资源之前先验证技术方案是否可行架构设计是否满足需求模块边界是否清晰问题暴露在成本最低的阶段。2. 需求正确性验证场景测试全绿意味着所有业务场景已被理解接口契约已被定义预期行为已被确认开发过程中不再有需求理解偏差。3. Mock 阻力作为设计反馈当 Mock 难以编写时暴露的设计问题Mock 困难设计问题解决方向静态方法无法 Mock违反依赖倒置改为实例方法依赖注入构造函数做了太多事职责不清分离关注点接口方法太多违反接口隔离拆分接口需要准备大量测试数据耦合过紧解耦或引入 BuilderMock 的难度设计的坏味道程度4. 渐进式替换风险可控Mock A → Real A → 全绿验证 → Mock B → Real B → 全绿验证 → ...每次改动范围明确单个 Mock验证即时场景测试单元测试回归可控不会改一处坏一片5. AI 协作友好传统开发Mock-First ArchitectureAI 容易跑偏上下文丢失任务边界清晰替换某个 Mock改动影响难以预测每次改动有全绿验证需要大量上下文聚焦单个模块上下文精简将大任务拆解为小任务每个任务都有明确的完成标准。与传统 TDD 的对比维度传统 TDDMock-First Architecture验证层级单元/函数级别架构需求级别开发顺序逐功能迭代骨架先行渐进填充Mock 角色隔离依赖架构占位符设计反馈代码细节设计整体架构设计风险控制单元测试保障场景测试单元测试双重保障

PyTorch 3.0静态图分布式训练：如何在不改一行模型代码的前提下，将Llama-3-70B训练集群从256卡压至192卡并保持98.7%线性加速比？

第一章：PyTorch 3.0静态图分布式训练的企业级演进背景近年来，大规模AI模型在金融风控、智能推荐、工业质检等企业核心场景中持续落地，对训练效率、资源利用率与跨集群可扩展性提出严苛要求。传统动态图执行模式虽具备开发灵活性，但…

2026/6/1 12:30:58 阅读更多

基于下一代硬件的Ascend C SIMD与SIMT混合编程

直播回放链接：下一代硬件的Reg矢量编程、SIMD&SIMT混合编程_哔哩哔哩_bilibili 获取往期直播材料：https://gitcode.com/cann/community/tree/master/events/meetup/slides

2026/5/31 12:43:09 阅读更多

别再试图让 Agent 适应你的代码库，而是让代码库和流程适应 Agent。AI Coding Agent 时代，工程师不再是“码农”？Harness Engineering 实战 playbook

AI Coding Agent 时代，工程师不再是“码农”？Harness Engineering 实战 playbook 最近刷到 OpenAI 内部大动作：Greg Brockman 发帖说，他们工程师的工作从去年 12 月开始彻底变了。以前用 Codex 写单元测试，现在 Agent…

2026/5/31 20:44:11 阅读更多

智能热致变色加热坐垫DIY：柔性电子与材料科学的跨学科实践

1. 项目概述：一个能“说话”的温暖坐垫冬天最烦人的事情之一，就是坐上一把冰冷的椅子，那股寒意能瞬间穿透衣物，让人一激灵。市面上的加热坐垫不少，但大多只是默默地发热，你只能凭感觉去猜测它是否已经足够温…

2026/6/1 19:44:10 阅读更多

机器学习篇---Python+opencv数字图像的基本操作

一、项目总体功能本模块是图像处理实验的主控程序，负责按实验步骤依次调用各功能函数，完成彩色图像的读取、显示、颜色空间转换、几何变换、算术与按位运算，并保存所有处理结果。二、图像读取与尺寸统一img_bgr, img_rgb, img_gray load_col…

2026/6/1 19:44:10 阅读更多

【新手也能懂】Windows 本地部署 Hermes Agent 一键包快速搭建教程（包含安装包）

Windows 本地部署 Hermes 太麻烦？这个一键包 5 分钟就能跑起来很多人想体验 Hermes Agent，但真正开始部署时，往往会卡在环境配置上。要装依赖、配运行环境、处理路径问题，还可能遇到命令行报错、系统拦截、文件缺失等情况。对于…

2026/6/1 19:43:30 阅读更多

【新手也能上手的】Windows 环境 Hermes 部署一键安装轻松实现（包含安装包）

Windows 本地部署 Hermes 一键安装包完整教程想要体验 Hermes Agent 的本地智能任务处理能力，却被复杂的环境配置、依赖安装、命令行操作拦住脚步？不少用户在初次部署时，都会遇到环境不兼容、文件缺失、系统拦截等问题，不仅耗时…

2026/6/1 19:43:30 阅读更多

STM32智能温控系统：3步打造你的第一个嵌入式PID控制器

STM32智能温控系统：3步打造你的第一个嵌入式PID控制器【免费下载链接】STM32 项目地址: https://gitcode.com/gh_mirrors/stm322/STM32 你是否曾经想过，家里的恒温器、咖啡机的加热系统，甚至是工业烤箱的温度控制，背后都…

2026/6/1 19:42:29 阅读更多

YACReader终极指南：三步打造你的专业漫画图书馆

YACReader终极指南：三步打造你的专业漫画图书馆【免费下载链接】yacreader This repo contains the code of YACReaders desktop version. 项目地址: https://gitcode.com/gh_mirrors/ya/yacreader 还在为电脑里散乱的漫画文件头疼吗？YACReader是…

2026/6/1 19:41:48 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/1 0:23:56 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2026/6/1 0:06:19 阅读更多

相关文章

PyTorch 3.0静态图分布式训练：如何在不改一行模型代码的前提下，将Llama-3-70B训练集群从256卡压至192卡并保持98.7%线性加速比？

基于下一代硬件的Ascend C SIMD与SIMT混合编程

别再试图让 Agent 适应你的代码库，而是让代码库和流程适应 Agent。AI Coding Agent 时代，工程师不再是“码农”？Harness Engineering 实战 playbook

智能热致变色加热坐垫DIY：柔性电子与材料科学的跨学科实践

机器学习篇---Python+opencv数字图像的基本操作

【新手也能懂】Windows 本地部署 Hermes Agent 一键包快速搭建教程（包含安装包）

【新手也能上手的】Windows 环境 Hermes 部署 一键安装轻松实现（包含安装包）

STM32智能温控系统：3步打造你的第一个嵌入式PID控制器

YACReader终极指南：三步打造你的专业漫画图书馆

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

【新手也能上手的】Windows 环境 Hermes 部署一键安装轻松实现（包含安装包）