我花 1 小时搞懂了 LLM 的核心原理：从 Token 到 Attention，用代码逐行实现

发布时间：2026/6/17 16:22:05

我花 1 小时搞懂了 LLM 的核心原理从 Token 到 Attention用代码逐行实现适合想理解大语言模型LLM底层原理的开发者不需要深度学习基础。本文用 Python 代码逐行实现 LLM 的核心组件不依赖任何深度学习框架。为什么要理解 LLM 原理用 AI 工具不需要理解原理就像开车不需要懂发动机。但如果你想调优 prompt知道为什么某个 prompt 效果好选模型知道 7B 和 70B 的区别在哪优化成本知道 token 是怎么计算的开发 Agent知道上下文窗口的限制在哪就需要理解 LLM 的核心原理。核心概念 1Token词元LLM 不是按字处理文本而是按token。defsimple_tokenize(text):简化的 token 化按空格和标点分割importre# 按空格、标点分割tokensre.findall(r\w|[^\w\s],text)returntokens# 示例text我用 Python 写了一个自动化脚本tokenssimple_tokenize(text)print(tokens)# [我, 用, Python, 写, 了, 一个, 自动化, 脚本]print(fToken 数:{len(tokens)})# Token 数: 8实际的 tokenizer如 GPT 用的 BPE更复杂会把常见词组合并# 自动化可能被拆成自动化2 个 token# Python 是 1 个 token# 1 个中文字 ≈ 1.5-2 个 token为什么重要API 按 token 收费prompt 回复的总 token 数决定成本。核心概念 2Embedding向量化LLM 把每个 token 转成一个数字向量一组浮点数才能做数学运算。importnumpyasnpdefsimple_embedding(tokens,dim8):简化的 embedding把 token 映射到随机向量# 实际中这些向量是训练出来的这里用随机数演示np.random.seed(42)vocab{token:np.random.randn(dim)fortokeninset(tokens)}returnnp.array([vocab[t]fortintokens])tokens[我,用,Python,写]vectorssimple_embedding(tokens,dim8)print(f输入:{tokens})print(f向量形状:{vectors.shape})# (4, 8) - 4 个 token每个 8 维为什么重要Embedding 是 LLM 理解语义的基础。相似含义的词向量距离近。核心概念 3Self-Attention自注意力这是 Transformer 的核心机制——让每个 token 关注其他 token理解上下文关系。defself_attention(x,dim8):简化的自注意力机制np.random.seed(42)# 1. 生成 Q查询、K键、V值矩阵W_qnp.random.randn(dim,dim)*0.1W_knp.random.randn(dim,dim)*0.1W_vnp.random.randn(dim,dim)*0.1Qx W_q# 查询向量Kx W_k# 键向量Vx W_v# 值向量# 2. 计算注意力分数Q 和 K 的点积scoresQ K.T/(dim**0.5)# 缩放点积# 3. Softmax 归一化exp_scoresnp.exp(scores-np.max(scores,axis-1,keepdimsTrue))attention_weightsexp_scores/np.sum(exp_scores,axis-1,keepdimsTrue)# 4. 加权求和outputattention_weights Vreturnoutput,attention_weights# 示例tokens[我,用,Python,写,代码]vectorssimple_embedding(tokens,dim8)output,weightsself_attention(vectors)print(f注意力权重矩阵:)fori,tokeninenumerate(tokens):row[f{weights[i][j]:.2f}forjinrange(len(tokens))]print(f{token}:{row})输出示例注意力权重矩阵: 我: [0.15, 0.20, 0.18, 0.25, 0.22] 用: [0.18, 0.15, 0.22, 0.23, 0.22] Python: [0.16, 0.20, 0.17, 0.25, 0.22] 写: [0.20, 0.18, 0.22, 0.18, 0.22] 代码: [0.19, 0.17, 0.21, 0.22, 0.21]解读写对Python和代码的注意力权重较高0.22, 0.22说明模型理解了写 Python 代码这个语义关系。为什么重要Attention 让 LLM 能理解上下文。“我在银行存钱和我在河边的银行坐着”银行的含义不同就是靠 Attention 来区分的。核心概念 4Feed Forward前馈网络Attention 之后每个 token 的向量会经过一个前馈网络做进一步变换。deffeed_forward(x,hidden_dim16):简化的前馈网络两层线性变换 ReLUnp.random.seed(42)input_dimx.shape[-1]# 第一层扩展维度W1np.random.randn(input_dim,hidden_dim)*0.1b1np.zeros(hidden_dim)hnp.maximum(0,x W1b1)# ReLU 激活# 第二层压缩回原维度W2np.random.randn(hidden_dim,input_dim)*0.1b2np.zeros(input_dim)outputh W2b2returnoutput核心概念 5Transformer Block完整的一层把 Attention Feed Forward 残差连接组合在一起就是一个 Transformer Blockdeftransformer_block(x,dim8):一个 Transformer Block Attention Feed Forward 残差# 1. 自注意力attn_output,_self_attention(x,dim)# 2. 残差连接xxattn_output# 3. 前馈网络ff_outputfeed_forward(x)# 4. 残差连接xxff_outputreturnxGPT-4 有约 120 个这样的 Block 堆叠在一起每个 Block 让模型对文本的理解更深一层。核心概念 6生成过程自回归LLM 生成文本的方式是一个 token 一个 token 地生成每次预测下一个最可能的 token。defsimple_generate(prompt_tokens,vocab,num_tokens5):简化的文本生成逐 token 预测generatedlist(prompt_tokens)for_inrange(num_tokens):# 1. 对当前所有 token 做 embeddingvectorssimple_embedding(generated,dim8)# 2. 过 Transformer Blockoutputtransformer_block(vectors)# 3. 取最后一个 token 的输出预测下一个 tokenlast_outputoutput[-1]# 4. 简化版用向量的 argmax 选 token实际用 softmax 采样scores{token:np.dot(last_output,np.random.randn(8))fortokeninvocab}next_tokenmax(scores,keyscores.get)generated.append(next_token)returngenerated# 示例vocab[我,用,Python,写,了,一个,自动化,脚本,。]resultsimple_generate([我,用,Python],vocab,num_tokens5)print(生成结果:,.join(result))为什么重要理解自回归生成就理解了为什么 LLM 有时会一本正经地胡说八道——它在逐 token 预测如果中间某个 token 预测错了后面会越偏越远。核心概念 7Temperature温度Temperature 控制生成的随机性。defsample_with_temperature(logits,temperature1.0):带温度的采样# logits: 每个 token 的得分# temperature: 越高越随机越低越确定scaledlogits/temperature exp_scalednp.exp(scaled-np.max(scaled))probsexp_scaled/np.sum(exp_scaled)# 按概率采样returnnp.random.choice(len(probs),pprobs)# temperature 0.1: 几乎总是选最高分的 token确定性强# temperature 1.0: 正常采样# temperature 2.0: 非常随机实用建议写代码/数学推理temperature 0确定性最高写文章/创意内容temperature 0.7-0.9有创意但不乱来头脑风暴temperature 1.5非常随机完整的简化 LLM把所有组件组合起来classSimpleLLM:简化版 LLMdef__init__(self,vocab,dim8,num_layers2):self.vocabvocab self.dimdim self.num_layersnum_layersdefforward(self,tokens):前向传播# 1. Token 化 Embeddingxsimple_embedding(tokens,self.dim)# 2. 过 N 个 Transformer Blockfor_inrange(self.num_layers):xtransformer_block(x,self.dim)returnxdefgenerate(self,prompt,max_tokens10):生成文本tokenssimple_tokenize(prompt)generatedlist(tokens)for_inrange(max_tokens):outputself.forward(generated)# 预测下一个 token简化版next_tokenself._predict_next(output[-1])ifnext_token[END]:breakgenerated.append(next_token)return.join(generated)关键参数与模型大小参数含义GPT-4 约值参数量模型的权重数量~1.8 万亿层数Transformer Block 数量~120 层隐藏维度每个 token 的向量维度~12288注意力头数多头注意力的头数~96上下文窗口能处理的最大 token 数128K模型大小参数量 × 每个参数的存储空间7B 模型 ≈ 14GBFP1670B 模型 ≈ 140GBFP16量化后INT47B ≈ 4GB70B ≈ 35GB踩坑记录坑 1把 Token 和字搞混症状以为 3000 字 3000 tokens结果 API 费用比预期高 50%。原因中文 1 字 ≈ 1.5-2 tokens比英文贵。解决用 tokenizer 工具如 tiktoken精确计算 token 数。坑 2不理解上下文窗口症状把 10 篇文章一次性塞给 LLM结果超了 128K token 限制。原因上下文窗口 prompt 回复的总 token 数。解决长文档分块处理每次只传相关部分。坑 3Temperature 设错症状写代码时设了 temperature1.5生成的代码到处是语法错误。原因高温度增加随机性代码需要确定性。解决写代码用 temperature0 或 0.1。坑 4以为模型越大越好症状用了 70B 模型做简单分类成本是 7B 的 10 倍效果提升不到 5%。原因简单任务不需要大模型。解决按任务复杂度选模型简单任务用小模型。坑 5不理解幻觉症状LLM 说Python 3.13 支持模式匹配但 Python 3.10 就支持了。原因LLM 是概率模型不是数据库。它会编造看起来合理但不准确的信息。解决关键信息必须人工验证不能完全信任 LLM 的输出。总结3 条核心经验LLM 的核心是 Attention。它让模型能理解上下文关系是 LLM 区别于传统 NLP 的关键。LLM 是逐 token 生成的。理解自回归生成就理解了 LLM 的能力边界为什么有时胡说八道。参数量决定能力上限但不决定性价比。简单任务用小模型够了大模型只在复杂推理时才值得。你对 LLM 原理有什么疑问评论区交流。

从零到一：CANoe工程搭建与通道映射实战指南

1. 从零搭建CANoe工程环境第一次打开CANoe软件时，满屏的英文菜单和复杂的功能区确实容易让人发懵。记得我刚入行时，光是找新建工程的按钮就花了十分钟。其实只要掌握几个关键步骤，搭建工程就像搭积木一样简单。打开软件后别急着操作&#x…

2026/6/17 16:22:05 阅读更多

Treelite：为什么你的决策树模型需要一个通用翻译器？

Treelite：为什么你的决策树模型需要一个通用翻译器？ 【免费下载链接】treelite Universal model exchange and serialization format for decision tree forests 项目地址: https://gitcode.com/gh_mirrors/tr/treelite 在机器学习的世界里&#…

2026/6/17 16:21:44 阅读更多

NXP PCLIB控制算法库：从离散化到定点数实现嵌入式闭环控制

1. 项目概述与核心价值在电机驱动、数字电源或者任何需要精确闭环调节的嵌入式系统里，控制算法是让整个系统“活”起来的大脑。我们常说的PID控制器，从理论到代码落地，中间隔着一道名为“离散化”和“定点数运算”的鸿沟。很多工程师在仿真里…

2026/6/17 16:20:59 阅读更多

IC 验证篇（09-03）UVM 验证环境构建与测试点落地

1. UVM验证环境构建基础搞IC验证的朋友都知道，UVM验证环境就像搭积木，得一块块来。我当年第一次接触UVM时，看着那些driver、monitor、scoreboard组件也是一头雾水，后来慢慢摸索才发现其实没那么复杂。咱们今天就用最接地气的方式…

2026/6/17 17:25:55 阅读更多

RPCS3终极指南：三分钟学会PS3模拟器安装与配置

RPCS3终极指南：三分钟学会PS3模拟器安装与配置【免费下载链接】rpcs3 PlayStation 3 emulator and debugger 项目地址: https://gitcode.com/GitHub_Trending/rp/rpcs3 想要在电脑上重温经典PS3游戏吗？RPCS3作为目前最强大的免费开源PlayStation…

2026/6/17 17:22:27 阅读更多

FlashMLA、OpenManus与LLM Evals：AI落地三道技术闸门实操拆解

1. 这不是一篇“新闻简报”，而是一份面向实践者的AI技术拆解手记你点开这篇内容，大概率不是为了刷一条“Deepseek又出新东西了”的资讯，而是想搞清楚：那个被反复提起的FlashMLA，到底在底层动了什么手脚？为什…

2026/6/17 17:21:24 阅读更多

银狐木马深度解析：模块化恶意软件的运作机制与实战防御指南

1. 威胁概述：银狐木马病毒的“狩猎”新范式最近在分析一些企业安全事件和威胁情报时，一个代号为“银狐”的木马病毒家族频繁出现在视野里。它不像那些追求“大动静”的勒索软件，一上来就加密文件、弹窗要钱，而是更像一个经验老道的…

2026/6/17 17:21:03 阅读更多

终极指南：如何用ESP32 Arduino核心构建专业级物联网项目

终极指南：如何用ESP32 Arduino核心构建专业级物联网项目【免费下载链接】arduino-esp32 Arduino core for the ESP32 family of SoCs 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 在物联网开发领域，ESP32系列芯片凭借其强大…

2026/6/17 17:17:31 阅读更多

如何实现Nativefier无头模式在企业级CI/CD流水线中的自动化打包方案

如何实现Nativefier无头模式在企业级CI/CD流水线中的自动化打包方案【免费下载链接】nativefier Make any web page a desktop application 项目地址: https://gitcode.com/gh_mirrors/na/nativefier Nativefier作为一款强大的开源工具，能够将任何网页快速转…

2026/6/17 17:16:28 阅读更多

赛马娘DMM版中文汉化与性能优化全攻略：告别日文界面与卡顿烦恼

赛马娘DMM版中文汉化与性能优化全攻略：告别日文界面与卡顿烦恼【免费下载链接】umamusume-localify Localify "ウマ娘: Pretty Derby" DMM client 项目地址: https://gitcode.com/gh_mirrors/um/umamusume-localify 还在为赛马娘DMM版的日文界面而…

2026/6/17 0:00:21 阅读更多

终极指南：3分钟学会用uesave编辑虚幻引擎游戏存档

终极指南：3分钟学会用uesave编辑虚幻引擎游戏存档【免费下载链接】uesave Rust library and CLI to read and write Unreal Engine save files 项目地址: https://gitcode.com/gh_mirrors/ue/uesave 你是否曾经因为游戏存档损坏而束手无策？或者想…

2026/6/17 0:00:42 阅读更多

GPT-4驱动的Python地理可视化四库实战指南

1. 项目概述：当大模型遇上地理信息，四款Python地图库的实战筛选你有没有试过让GPT-4直接画一张带标注的行政区划图？我试过——它能用ASCII字符拼出个“中国轮廓”，也能在Markdown里用emoji堆个“北京→上海→广州”的箭头链&#…

2026/6/17 0:02:28 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/17 0:34:13 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/17 0:34:15 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/17 0:34:22 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/17 11:00:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/17 11:00:26 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/17 11:00:22 阅读更多

相关文章