Stanford CS336：从零构建语言模型，6周带你写出自己的 LLM

发布时间：2026/6/2 12:56:03

Stanford CS336从零构建语言模型6周带你写出自己的 LLM2026 年春季斯坦福大学开设了一门全新的课程CS336: Language Modeling from Scratch由 Tatsunori Hashimoto 和 Percy Liang 联合授课。这门课的理念很直接——像操作系统课程让学生写一个完整 OS 一样CS336 要求学生从零构建一个完整的语言模型包括数据收集、模型架构、训练到部署的全流程。课程在 Hacker News 上获得了 340 分的热度社区反响强烈。本文带你深入了解这门课的设计思路和核心内容。课程定位把黑盒拆开大多数深度学习课程教学生如何使用预训练模型调参、微调、做推理。CS336 反过来——它假设你什么都不要从裸数据开始造轮子。这不是一门讲概念的课。课程页面明确标注了前置要求熟练掌握 Python代码量远超其他 AI 课熟悉 PyTorch 和深度学习系统优化内存层次结构、GPU 算子线性代数、概率论、机器学习基础而且这是5 学分的课。言下之意如果你的日常还有其他课要上恐怕时间不够。Assignment 1从零实现 Transformer第一个作业就把门槛拉满了Tokenizer实现 BPEByte Pair Encoding分词器处理原始文本数据模型架构实现完整的 TransformerMulti-Head Attention、Feed-Forward、LayerNorm、Positional Encoding优化器实现 AdamW 优化器训练循环在小规模数据集上完成训练这个阶段的目标是让学生理解 Transformer 的每一个组件如何工作。没有 HuggingFace没有 PyTorch Lightning没有现成的 Trainer——你写的就是框架。# 学生需要自己实现的 Attention简化示例classMultiHeadAttention(nn.Module):def__init__(self,d_model:int,n_heads:int):super().__init__()self.n_headsn_heads self.d_headd_model//n_heads self.w_qnn.Linear(d_model,d_model)self.w_knn.Linear(d_model,d_model)self.w_vnn.Linear(d_model,d_model)self.w_onn.Linear(d_model,d_model)defforward(self,x,maskNone):B,T,Cx.shape qself.w_q(x).view(B,T,self.n_heads,self.d_head).transpose(1,2)kself.w_k(x).view(B,T,self.n_heads,self.d_head).transpose(1,2)vself.w_v(x).view(B,T,self.n_heads,self.d_head).transpose(1,2)attnq k.transpose(-2,-1)/(self.d_head**0.5)ifmaskisnotNone:attnattn.masked_fill(mask0,float(-inf))attnF.softmax(attn,dim-1)out(attn v).transpose(1,2).contiguous().view(B,T,C)returnself.w_o(out)Assignment 2系统优化 — 自己写 FlashAttention第二个作业进入系统优化层面。在前一个作业的基础上Profiling用 PyTorch Profiler 分析和基准测试模型的每一层Triton FlashAttention2用 OpenAI Triton 语言自己实现 FlashAttention2 内核分布式训练实现支持多 GPU 并行训练的内存高效版本这是 CS336 的独特之处——大多数课程只讲怎么用模型但这门课让学生深入到 CUDA kernel 级别去理解 attention 的计算模式。# 学生用 Triton 实现的 FlashAttention2简化示意triton.jitdefflash_attn_fwd_kernel(q_ptr,k_ptr,v_ptr,o_ptr,stride_qh,stride_qt,stride_qd,stride_kh,stride_kt,stride_kd,stride_vh,stride_vt,stride_vd,stride_oh,stride_ot,stride_od,T,D:tl.constexpr,BLOCK_T:tl.constexpr,BLOCK_D:tl.constexpr,):# Triton kernel 实现 FlashAttention 的分块计算# 通过 tiling 避免完整注意力矩阵的内存开销...Assignment 3Scaling — 理解规模效应第三个作业聚焦于理解和验证 LLM 的 Scaling 规律在不同规模的模型Small / Medium / Large上训练验证 Chinchilla 法则在给定计算预算下模型参数和训练 token 的最优比例分析和可视化 Scaling 曲线这个阶段的实验直接验证了 Kaplan et al. (2020) 和 Hoffmann et al. (2022) 的 Scaling Law 论文。为什么这门课值得关注1. 填补了会用和会造之间的空白目前大部分开发者处于两个极端要么只会from transformers import AutoModel要么是工业界做预训练的大厂研究员。CS336 瞄准的是中间地带——让你理解 LLM 的内部机制达到可以自己训练小模型、调优训练流程的水平。2. 系统 ML 的交叉训练这不是一门纯 ML 课。它要求你写 Triton kernel、做分布式训练、分析和优化内存带宽。这种 ML Systems 的交叉能力正是目前 AI 人才市场上最稀缺的。3. 对抗框架黑盒化随着 HuggingFace 等工具链的成熟进入 AI 领域的门槛降低了但开发者也越来越不理解底层原理。CS336 的设计理念是知其所以然——即使最终你还是用 HuggingFace 和 PyTorch但你知道每一行代码背后对应的是什么。对中国开发者的启示CS336 的课程资源在 GitHub 上公开github.com/stanford-cs336这也是它上 Hacker News 榜首的原因之一。对于无法选修这门课的中国开发者来说完全可以按照课程大纲自学自学路线图阶段内容建议时间Phase 1实现 BPE Tokenizer DataLoader1 周Phase 2从零实现 TransformerAttention FFN LayerNorm2 周Phase 3训练循环小规模验证1 周Phase 4用 Triton 实现 FlashAttention2 周Phase 5分布式训练DDP/FSDP1 周Phase 6Scaling Law 实验分析1 周如果你正在做 AI 应用开发不必完全复刻全部作业但至少理解 Transformer 的内部实现原理——这能在你调试模型行为、选择合适的预训练模型、甚至设计新的模型架构时提供底层直觉。总结CS336 不是一门轻松的课。它要求你写大量代码、理解 GPU 架构、分析系统性能。但正是这种从零开始的硬核方式才能培养出真正理解语言模型的工程师和研究者。课程链接cs336.stanford.edu | GitHub: github.com/stanford-cs336我正在做的在线工具站 zidongai.com.cn 也在持续关注 AI 工程化的最新进展欢迎交流。

STM32嵌入式系统接入PS/2键盘：协议解析与状态机实现

1. 项目概述与核心思路在嵌入式项目里，尤其是那些需要复杂人机交互的玩意儿，按键输入是个绕不开的话题。用一两个按键，直接接在GPIO上，简单省事。但当你需要几十个甚至上百个按键时——比如想做个自定义的控制面板、复古的游戏机、…

2026/6/2 12:56:03 阅读更多

深度解析OptiScaler：多GPU超分辨率技术的跨平台融合革命

深度解析OptiScaler：多GPU超分辨率技术的跨平台融合革命【免费下载链接】OptiScaler OptiScaler bridges upscaling/frame gen across GPUs. Supports DLSS2/XeSS/FSR2 inputs, replaces native upscalers, enables FSR3 FG on non-FG titles. Supports Nukem mod …

2026/6/2 12:54:22 阅读更多

基于ESP8266与WiFi定位的低成本车辆行程追踪系统DIY

1. 项目概述：当ESP8266遇上WiFi定位作为一名常年泡在嵌入式开发和物联网项目里的老玩家，我总在琢磨怎么用最少的成本、最巧的思路，解决一些看似需要“重型装备”才能搞定的问题。车辆行程追踪就是一个典型例子。一提到这个，大家脑…

2026/6/2 12:54:22 阅读更多

别再只盯着P0XXX了！一文搞懂汽车DTC故障码的完整“身份证”信息（含UDS/OBD对比）

汽车DTC故障码全解析：从编码规则到实战诊断当诊断仪屏幕上跳出"P013401"这样的代码时，多数技师的第一反应是查手册或求助搜索引擎。但真正资深的汽车电子工程师会像解读身份证一样，从这三个字节的十六进制数字中直接提取关键信息&…

2026/6/2 14:01:58 阅读更多

别再死记硬背了！用‘F谱号’的起源故事，5分钟彻底搞懂低音谱号怎么画、怎么看

从字母F到低音谱号：一场跨越千年的音乐密码破译之旅当钢琴教师第三次纠正你低音谱号的画法时，你是否想过这个看似随性的符号背后藏着怎样的秘密？让我们穿越回9世纪的欧洲修道院，揭开低音谱号作为"F谱号"的身世之谜——…

2026/6/2 14:01:18 阅读更多

ESP32驱动HUB75点阵屏与I2S音频的智能时钟开发全流程

1. 项目概述与核心思路几年前，我在一个创客社区看到了一个用LED点阵屏显示俄罗斯方块动画来呈现时间的时钟项目，觉得非常酷。但当时那个版本功能相对单一，只是一个安静的视觉玩具。作为一个喜欢“折腾”的嵌入式开发者，我就在想…

2026/6/2 14:00:57 阅读更多

从零构建物联网海洋浮标：硬件选型、防水封装与数据链路实战

1. 项目概述：一个物联网浮标的诞生记折腾硬件和开源项目这么多年，我始终觉得，能把一个想法从电路图变成在水里漂着的实物，这个过程本身就充满了魅力。这次要聊的，就是一个典型的“从零到一”的物联网项目：一…

2026/6/2 14:00:16 阅读更多

别再手动算NDVI了！用ENVI Band Math 5分钟搞定Landsat地表温度反演（附完整公式）

ENVI Band Math全流程自动化：5分钟完成Landsat地表温度反演的高效方案每次处理Landsat数据时，你是否也厌倦了在多个工具间反复切换、手动计算NDVI和比辐射率的繁琐流程？作为从业多年的遥感分析师，我深刻理解地表温度反演过程中那些…

2026/6/2 14:00:16 阅读更多

如何永久保存微信聊天记录？用WeChatMsg实现数据自主的完整指南

如何永久保存微信聊天记录？用WeChatMsg实现数据自主的完整指南【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/…

2026/6/2 14:00:16 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

STM32嵌入式系统接入PS/2键盘：协议解析与状态机实现

深度解析OptiScaler：多GPU超分辨率技术的跨平台融合革命

基于ESP8266与WiFi定位的低成本车辆行程追踪系统DIY

别再只盯着P0XXX了！一文搞懂汽车DTC故障码的完整“身份证”信息（含UDS/OBD对比）

别再死记硬背了！用‘F谱号’的起源故事，5分钟彻底搞懂低音谱号怎么画、怎么看

ESP32驱动HUB75点阵屏与I2S音频的智能时钟开发全流程

从零构建物联网海洋浮标：硬件选型、防水封装与数据链路实战

别再手动算NDVI了！用ENVI Band Math 5分钟搞定Landsat地表温度反演（附完整公式）

如何永久保存微信聊天记录？用WeChatMsg实现数据自主的完整指南

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因