第二章大模型到底是怎么工作的小白版为什么要了解原理很多人一边用 AI 写代码一边又觉得它像魔法。魔法感越强失望也越大。因为一旦它出错你就不知道问题出在哪只能骂一句AI 废物然后什么都没改变。如果你理解了几个最关键的原理你会发现AI 出错是可以预测的很多AI 的锅其实是提问方式的锅知道原理才能知道怎么绕开局限这一章我们只讲最关键、最够用的原理而且尽量不用术语吓人。1. 什么是训练你可以把训练理解成让一个人极其夸张地刷完整个互联网再让他从这些内容里学习语言、知识、模式和结构。它看过各种编程教程和文档GitHub 上的开源代码Stack Overflow 的问答技术博客论文自然语言文本当然它不是像人一样真正理解世界更准确地说它是在学习什么词后面通常接什么词什么问题通常对应什么答案什么代码结构通常长什么样什么报错大概率和什么原因有关所以你可以把训练想成海量刷题 模式提取。这对你意味着什么AI 对主流框架的主流用法非常熟悉因为训练数据里有大量这类内容但对你们公司自研内部框架的特殊用法一无所知越是小众、越是新的东西它越可能出错所以在 Prompt 里给 AI 补充它可能不知道的信息是非常关键的一步。2. 什么是推理推理不是哲学思考更像是开卷考试。你把题目给它它会结合训练时学到的大量模式去预测下一段最合理的内容应该是什么。比如你说用 FastAPI 写一个文件上传接口它脑子里就会迅速调出一大堆相关模式FastAPIUploadFileFile(...)异步接口返回 JSON然后按概率和上下文去拼出一份像样的答案。关键点它在生成不在检索这里有个很重要的点它不是在一个真实数据库里检索唯一正确答案而是在生成高概率合理答案。类比搜索引擎 图书管理员帮你找到一本真实存在的书大模型 一个博览群书的人根据他的知识给你写一段关于这个话题的文字前者的答案是找到的后者的答案是生成的。生成的东西有时候对有时候会有错。这就是为什么它经常看起来很懂但又不一定百分百对。3. 什么是上下文窗口上下文窗口你可以把它理解成AI 的短期记忆容量。你跟一个人聊天如果前面你说了很多话他不可能无限记住所有细节。AI 也一样。它能同时看见并记住的内容是有限的。上下文里可能包括你的当前问题前面对话历史你贴进去的代码项目里被读取的文件需求说明报错信息上下文窗口的大小是多少不同模型差距很大模型上下文窗口大约GPT-3.516K tokenGPT-4128K tokenClaude 3 Sonnet200K tokenGemini 1.5 Pro1M tokenToken 的概念我们在第三章详解这里先记住越大的上下文窗口意味着 AI 可以同时处理更多内容。两个反直觉的事实事实一上下文太短它会失忆如果你和 AI 聊了很多轮早期的设定和上下文可能已经超出了窗口范围AI 就会忘记你前面说的东西。典型表现你前面说了我们用 Vue 3后来它写代码却给你用了 React。事实二上下文太长它会分心很多人以为把整个项目扔给 AI它就会更聪明。现实往往是信息太多重点变稀释旧方案和新方案混在一起无关文件挤占注意力它开始忘记你真正想解决的问题就像你问一个同事帮我看看登录接口为什么 401结果你给了他三个月聊天记录和五版废弃需求——他不会更聪明只会更痛苦。4. 什么是幻觉幻觉这个词听起来很玄实际一点说就是AI 会一本正经地编。它常见的编法包括API 根本不存在方法名拼错了但样子很像真的某个库其实没有这个功能配置项是虚构的它把旧版本用法当成新版本用法引用的文档链接根本打不开为什么会这样因为它的目标是生成看起来合理、统计上高概率的内容而不是天然附带事实核验机制。这跟一个过度自信的实习生很像知识面挺广说话很流畅出手很快但不确定的时候也不会老老实实承认不知道幻觉最常见的场景场景一描述一个不存在的 API你让 AI 写一个前端上传组件你说用某个 UI 库写一个支持拖拽上传、自动压缩图片、断点续传的组件如果这个 UI 库本身只支持普通上传它很可能会自动脑补一个beforeCompress钩子再脑补一个resumeUpload方法最后再给你写一套看起来特别正规的配置对象你一运行全是错。这不是因为它故意骗你而是它把几个常见模式拼成了一个看上去合理的答案。场景二知识截止日期问题AI 的训练数据有截止日期。比如某个框架在训练后发布了破坏性变更AI 可能会给你写一份旧版本的代码然后用你框架当前版本时报错。场景三过度自信你问它这个方案有没有安全问题它可能会说这个方案安全性良好但实际上存在明显的 SQL 注入风险。如何应对幻觉我希望你帮我写代码但不要猜测不存在的 API。 要求 1. 如果你不确定某个框架或库是否支持某能力请明确标注需要核对官方文档 2. 优先使用稳定、常见的 API 3. 生成代码前先列出你依赖的关键 API 和它们的用途 4. 如果某功能需要第三方库请说明原因 5. 如果你对某个实现不确定请说我不确定建议验证这类 Prompt 的价值很大因为它不是让 AI “更聪明”而是在约束它别乱编。5. 为什么模型有强弱差异很多人会简单理解成“这个模型更聪明那个模型更笨。”这种说法太粗糙了。更准确的差异来自四件事差异一训练数据质量和覆盖范围某些模型训练数据质量更高筛选更严格某些模型代码训练数据更多某些模型有更新的知识截止时间差异二推理能力处理复杂问题时的稳定性。简单任务大家都能做复杂多步推理才分高下。差异三工具调用能力能不能查文件、跑命令、读网页、操作环境。这决定了 AI 是只会说话还是会干活。差异四上下文长度与上下文管理能力能处理多少内容以及在长上下文里是否依然表现稳定。所以 GPT、Claude、Gemini、DeepSeek 的差异不只是智商排名更像不同工程师的工作风格特点适合场景擅长长文分析文档整理、代码审查擅长代码补全日常写代码工具链更强Agent 任务、自动化流速度更快、成本更低大量重复任务6. AI 在编程里的实际工作方式当你让 AI 帮你写代码它背后大概在做这几件事解析意图理解你说的是什么功能匹配模式从训练中找相关代码结构生成草稿按概率拼出一份代码格式化输出把代码整理成可读格式整个过程没有运行代码这一步除非工具集成了代码执行环境。所以 AI 不知道它生成的代码跑不跑得通除非你让它验证。实际案例为什么同样的问题多问几遍结果不一样这是因为生成过程有随机性叫做temperature温度参数。相同的输入每次生成的结果会有细微差异。这不是 bug而是设计特性。高随机性让 AI 更有创造力但也更不稳定。对于代码任务你通常希望结果更确定、更精确一些工具允许你调低这个参数。7. 大模型 vs 搜索引擎一个容易混淆的对比维度搜索引擎大模型返回内容找到的真实网页生成的文本正确性取决于网页质量取决于训练和生成质量时效性实时更新有知识截止日期适合任务查找特定信息理解、生成、推理出错方式找不到答案生成错误但看起来合理的答案关键差异搜索引擎出错时你知道它找不到大模型出错时你可能不知道它编了。总结你需要建立的正确心智模型把 AI 想象成一个这样的合作者见多识广看过大量代码对主流方案烂熟于心开卷答题每次都调用已有知识来生成答案记忆有限只能看见当前对话窗口内的内容偶尔会编不确定时不会承认不确定会生成一个看起来合理的答案不会运行代码除非工具集成了否则它无法自我验证用这个心智模型你就能更准确地预测它什么时候靠谱、什么时候需要你来把关。一句话总结大模型不是会思考的神谕更像一个见多识广但偶尔会自信瞎写的超级实习生。上一章第一章 — Vibe Coding 到底是什么下一章第三章 — Token 是什么
【从零学Vibe Coding】第二章:大模型到底是怎么工作的(小白版)
发布时间:2026/5/16 11:42:50
第二章大模型到底是怎么工作的小白版为什么要了解原理很多人一边用 AI 写代码一边又觉得它像魔法。魔法感越强失望也越大。因为一旦它出错你就不知道问题出在哪只能骂一句AI 废物然后什么都没改变。如果你理解了几个最关键的原理你会发现AI 出错是可以预测的很多AI 的锅其实是提问方式的锅知道原理才能知道怎么绕开局限这一章我们只讲最关键、最够用的原理而且尽量不用术语吓人。1. 什么是训练你可以把训练理解成让一个人极其夸张地刷完整个互联网再让他从这些内容里学习语言、知识、模式和结构。它看过各种编程教程和文档GitHub 上的开源代码Stack Overflow 的问答技术博客论文自然语言文本当然它不是像人一样真正理解世界更准确地说它是在学习什么词后面通常接什么词什么问题通常对应什么答案什么代码结构通常长什么样什么报错大概率和什么原因有关所以你可以把训练想成海量刷题 模式提取。这对你意味着什么AI 对主流框架的主流用法非常熟悉因为训练数据里有大量这类内容但对你们公司自研内部框架的特殊用法一无所知越是小众、越是新的东西它越可能出错所以在 Prompt 里给 AI 补充它可能不知道的信息是非常关键的一步。2. 什么是推理推理不是哲学思考更像是开卷考试。你把题目给它它会结合训练时学到的大量模式去预测下一段最合理的内容应该是什么。比如你说用 FastAPI 写一个文件上传接口它脑子里就会迅速调出一大堆相关模式FastAPIUploadFileFile(...)异步接口返回 JSON然后按概率和上下文去拼出一份像样的答案。关键点它在生成不在检索这里有个很重要的点它不是在一个真实数据库里检索唯一正确答案而是在生成高概率合理答案。类比搜索引擎 图书管理员帮你找到一本真实存在的书大模型 一个博览群书的人根据他的知识给你写一段关于这个话题的文字前者的答案是找到的后者的答案是生成的。生成的东西有时候对有时候会有错。这就是为什么它经常看起来很懂但又不一定百分百对。3. 什么是上下文窗口上下文窗口你可以把它理解成AI 的短期记忆容量。你跟一个人聊天如果前面你说了很多话他不可能无限记住所有细节。AI 也一样。它能同时看见并记住的内容是有限的。上下文里可能包括你的当前问题前面对话历史你贴进去的代码项目里被读取的文件需求说明报错信息上下文窗口的大小是多少不同模型差距很大模型上下文窗口大约GPT-3.516K tokenGPT-4128K tokenClaude 3 Sonnet200K tokenGemini 1.5 Pro1M tokenToken 的概念我们在第三章详解这里先记住越大的上下文窗口意味着 AI 可以同时处理更多内容。两个反直觉的事实事实一上下文太短它会失忆如果你和 AI 聊了很多轮早期的设定和上下文可能已经超出了窗口范围AI 就会忘记你前面说的东西。典型表现你前面说了我们用 Vue 3后来它写代码却给你用了 React。事实二上下文太长它会分心很多人以为把整个项目扔给 AI它就会更聪明。现实往往是信息太多重点变稀释旧方案和新方案混在一起无关文件挤占注意力它开始忘记你真正想解决的问题就像你问一个同事帮我看看登录接口为什么 401结果你给了他三个月聊天记录和五版废弃需求——他不会更聪明只会更痛苦。4. 什么是幻觉幻觉这个词听起来很玄实际一点说就是AI 会一本正经地编。它常见的编法包括API 根本不存在方法名拼错了但样子很像真的某个库其实没有这个功能配置项是虚构的它把旧版本用法当成新版本用法引用的文档链接根本打不开为什么会这样因为它的目标是生成看起来合理、统计上高概率的内容而不是天然附带事实核验机制。这跟一个过度自信的实习生很像知识面挺广说话很流畅出手很快但不确定的时候也不会老老实实承认不知道幻觉最常见的场景场景一描述一个不存在的 API你让 AI 写一个前端上传组件你说用某个 UI 库写一个支持拖拽上传、自动压缩图片、断点续传的组件如果这个 UI 库本身只支持普通上传它很可能会自动脑补一个beforeCompress钩子再脑补一个resumeUpload方法最后再给你写一套看起来特别正规的配置对象你一运行全是错。这不是因为它故意骗你而是它把几个常见模式拼成了一个看上去合理的答案。场景二知识截止日期问题AI 的训练数据有截止日期。比如某个框架在训练后发布了破坏性变更AI 可能会给你写一份旧版本的代码然后用你框架当前版本时报错。场景三过度自信你问它这个方案有没有安全问题它可能会说这个方案安全性良好但实际上存在明显的 SQL 注入风险。如何应对幻觉我希望你帮我写代码但不要猜测不存在的 API。 要求 1. 如果你不确定某个框架或库是否支持某能力请明确标注需要核对官方文档 2. 优先使用稳定、常见的 API 3. 生成代码前先列出你依赖的关键 API 和它们的用途 4. 如果某功能需要第三方库请说明原因 5. 如果你对某个实现不确定请说我不确定建议验证这类 Prompt 的价值很大因为它不是让 AI “更聪明”而是在约束它别乱编。5. 为什么模型有强弱差异很多人会简单理解成“这个模型更聪明那个模型更笨。”这种说法太粗糙了。更准确的差异来自四件事差异一训练数据质量和覆盖范围某些模型训练数据质量更高筛选更严格某些模型代码训练数据更多某些模型有更新的知识截止时间差异二推理能力处理复杂问题时的稳定性。简单任务大家都能做复杂多步推理才分高下。差异三工具调用能力能不能查文件、跑命令、读网页、操作环境。这决定了 AI 是只会说话还是会干活。差异四上下文长度与上下文管理能力能处理多少内容以及在长上下文里是否依然表现稳定。所以 GPT、Claude、Gemini、DeepSeek 的差异不只是智商排名更像不同工程师的工作风格特点适合场景擅长长文分析文档整理、代码审查擅长代码补全日常写代码工具链更强Agent 任务、自动化流速度更快、成本更低大量重复任务6. AI 在编程里的实际工作方式当你让 AI 帮你写代码它背后大概在做这几件事解析意图理解你说的是什么功能匹配模式从训练中找相关代码结构生成草稿按概率拼出一份代码格式化输出把代码整理成可读格式整个过程没有运行代码这一步除非工具集成了代码执行环境。所以 AI 不知道它生成的代码跑不跑得通除非你让它验证。实际案例为什么同样的问题多问几遍结果不一样这是因为生成过程有随机性叫做temperature温度参数。相同的输入每次生成的结果会有细微差异。这不是 bug而是设计特性。高随机性让 AI 更有创造力但也更不稳定。对于代码任务你通常希望结果更确定、更精确一些工具允许你调低这个参数。7. 大模型 vs 搜索引擎一个容易混淆的对比维度搜索引擎大模型返回内容找到的真实网页生成的文本正确性取决于网页质量取决于训练和生成质量时效性实时更新有知识截止日期适合任务查找特定信息理解、生成、推理出错方式找不到答案生成错误但看起来合理的答案关键差异搜索引擎出错时你知道它找不到大模型出错时你可能不知道它编了。总结你需要建立的正确心智模型把 AI 想象成一个这样的合作者见多识广看过大量代码对主流方案烂熟于心开卷答题每次都调用已有知识来生成答案记忆有限只能看见当前对话窗口内的内容偶尔会编不确定时不会承认不确定会生成一个看起来合理的答案不会运行代码除非工具集成了否则它无法自我验证用这个心智模型你就能更准确地预测它什么时候靠谱、什么时候需要你来把关。一句话总结大模型不是会思考的神谕更像一个见多识广但偶尔会自信瞎写的超级实习生。上一章第一章 — Vibe Coding 到底是什么下一章第三章 — Token 是什么