大模型知识大观从数学基础到应用落地的完整图谱作者技术博主 |更新时间2026-05-24 |阅读时长约 35 分钟标签大语言模型LLMTransformer预训练RLHFRAGAgent知识图谱写给谁看你听过 ChatGPT、Claude、Gemini也知道背后是大模型但打开一篇论文就发现注意力机制、KL 散度、PPO、KV Cache……每个词都认识连在一起就不知所云。本文试图画出一张完整的地图把大模型涉及的知识板块梳理清楚告诉你每块知识是什么、为什么重要、学到哪种程度够用。不求面面俱到但求结构清晰、层次分明。目录一、数学基础地基决定上限二、深度学习基础理解神经网络的通用语言三、Transformer 架构大模型的核心引擎四、预训练与规模扩展从模型到大模型五、对齐与微调让模型有用且安全六、推理加速与部署从实验室到生产环境七、应用范式RAG、Agent 与提示工程八、学习路线建议一、数学基础地基决定上限很多人问学大模型必须精通数学吗答案是看目标。如果只是调用 API 写应用数学可以缓一缓但如果想理解模型为什么这样设计、为什么会出错、怎么改进数学是绕不开的。1.1 线性代数大模型的几何语言大模型处理的一切——文本、图像、音频——最终都被表示为向量和矩阵。理解这一点很多神秘的概念就会变得直观词嵌入是把单词映射到高维空间中的一个点语义相近的词在空间中距离近。“国王减去男人加上女人”结果接近女王——这是向量运算不是魔法。注意力机制的核心计算是矩阵乘法Attention ( Q , K , V ) softmax ( Q K ⊤ d k ) V \text{Attention}(Q, K, V) \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)VAttention(Q,K,V)softmax(dkQK⊤)V。每一个符号都是矩阵理解矩阵乘法的几何意义投影、旋转、缩放就理解了注意力在做什么。**特征值分解SVD**是理解 LoRA 微调的数学基础LoRA 的核心假设是权重更新矩阵是低秩的用两个小矩阵的乘积来近似而这正是矩阵秩和 SVD 的概念。学到哪种程度能手算矩阵乘法理解特征值和特征向量的含义知道什么是范数、内积、余弦相似度够了。1.2 概率与统计不确定性的语言语言模型本质上是一个概率模型给定前文预测下一个词的概率分布。这里面涉及最大似然估计MLE预训练的训练目标找到让观测数据出现概率最大的参数。交叉熵损失就是负对数似然两者等价。KL 散度衡量两个概率分布的距离。RLHF 中用 KL 散度约束微调后的模型不要偏离原始模型太远变分推理VAE的 ELBO 也离不开它。贝叶斯推断理解先验和后验的概念对理解 MAP 估计等价于 L2 正则化和各种不确定性量化方法很有帮助。信息熵语言建模中的困惑度Perplexity本质上是每个词的平均熵是衡量语言模型质量的基础指标。学到哪种程度理解概率分布、期望、条件概率会用 KL 散度和交叉熵知道贝叶斯定理怎么用足矣。1.3 微积分与最优化训练的数学引擎模型训练 在参数空间里找到损失函数最小值的过程。这里涉及链式法则反向传播的数学基础梯度如何从输出层一层一层传回输入层。理解链式法则反向传播就不再神秘。自动微分AutogradPyTorch/JAX 背后的机制不需要手写梯度公式计算图会自动完成微分。梯度下降及其变体SGD、Adam、AdaFactor。Adam 是当前大模型训练的主流优化器理解它的动量项和自适应学习率能帮你理解为什么某些超参数设置会导致训练不稳定。学习率调度warmup cosine decay 是大模型训练的标准配置背后是对损失曲面的经验认识。学到哪种程度能手推一层神经网络的梯度理解 Adam 的更新公式知道为什么学习率太大会发散、太小会收敛慢。二、深度学习基础理解神经网络的通用语言2.1 从感知机到深度网络神经网络的基本单元是神经元对输入做线性变换然后经过一个非线性激活函数。把很多神经元堆叠起来就得到了深度网络。激活函数的选择很有讲究早期的 Sigmoid 和 Tanh 在深层网络中容易导致梯度消失ReLU 解决了这个问题但有死神经元的风险现代大模型普遍使用 SiLUSwish或 GELU它们在平滑性和梯度流方面表现更好。残差连接是深度网络能真正深起来的关键y F ( x ) x y F(x) xyF(x)x让梯度可以跳过某些层直接回传解决了网络极深时的训练困难问题。ResNet 证明了它的效果Transformer 继承并发扬了这一设计。2.2 序列建模的历史为什么需要 Transformer在 Transformer 出现之前序列建模的主流是 RNN/LSTM/GRU。它们按时间步顺序处理序列每一步的隐状态承载着历史信息。RNN 家族有两个根本性缺陷第一无法并行化必须按顺序计算训练速度慢第二长距离依赖问题序列太长时早期的信息容易被遗忘即使 LSTM 的门控机制有所缓解也不彻底。Transformer 用注意力机制彻底绕开了这两个问题任意两个位置之间的信息交互只需一步且所有位置可以并行计算。这是大模型能扩展到数千亿参数的基础——规模需要并行并行需要 Transformer。2.3 正则化与泛化过拟合是所有机器学习模型的敌人大模型也不例外Dropout训练时随机丢弃神经元强迫网络不依赖任何单个特征。现代大模型中 Dropout 用得越来越少数据够多时不需要但在微调阶段仍有价值。批归一化BatchNorm和层归一化LayerNormTransformer 使用 LayerNorm 而非 BatchNorm因为语言模型处理的序列长度不固定LayerNorm 对批大小更鲁棒。Pre-LayerNorm在注意力和 FFN 之前做归一化是现代架构的标准选择训练更稳定。权重衰减L2 正则化等价于高斯先验的 MAP 估计防止权重过大。大模型训练中通常设置较小的权重衰减如 0.1。三、Transformer 架构大模型的核心引擎这是最值得深挖的部分。所有现代大语言模型的底层都是 Transformer理解它的每一个设计决策是理解大模型的关键。3.1 注意力机制全局信息交互注意力机制的核心思想是每个位置的输出是所有位置的信息的加权平均权重由该位置与其他位置的相关性决定。具体计算过程输入X XX分别经过三个线性变换得到Q QQQuery、K KKKey、V VVValue计算注意力分数score Q K ⊤ / d k \text{score} QK^\top / \sqrt{d_k}scoreQK⊤/dk经过 Softmax 得到注意力权重归一化到 0-1 之间且和为 1用注意力权重对V VV做加权平均得到输出除以d k \sqrt{d_k}dk是为了防止点积值过大导致 Softmax 梯度消失——这个小细节在原论文的 Footnote 里很多教程直接略过但它是训练稳定性的关键。多头注意力将注意力并行做多次每个头学习不同类型的依赖关系有的头关注句法结构有的头关注语义相关性有的头关注共指关系。这是 Transformer 表达能力强大的重要原因。**因果掩码Causal Mask**是自回归语言模型的必要组件预测第t tt个词时只能看到1 11到t − 1 t-1t−1个词不能看未来。通过在注意力分数矩阵的上三角位置填充负无穷Softmax 后变为 0实现这一约束。Flash Attention是 2022 年的重要工程优化重新设计注意力的 CUDA 实现利用 GPU 内存层次结构SRAM 比 HBM 快 10 倍把注意力计算的显存从O ( n 2 ) O(n^2)O(n2)降到O ( n ) O(n)O(n)同时速度提升 2-4 倍。这使得处理更长序列成为可能。3.2 位置编码让模型知道顺序注意力机制本身是排列无关的permutation invariant把输入打乱顺序输出不含位置信息时是一样的。但语言是有序的猫追狗和狗追猫意思完全不同。位置编码就是告诉模型每个词在序列中的位置。正弦绝对位置编码原始 Transformer用不同频率的正弦/余弦函数编码位置数学优雅支持任意长度但没有被学习可能不是最优的。可学习位置编码GPT-2/BERT把位置编码当参数训练效果好但不支持超过训练长度的序列。相对位置编码RoPE现代大模型LLaMA、Qwen、ChatGLM的主流选择。把位置信息编码在注意力分数的计算过程中而非加到输入上。数学上通过旋转矩阵实现天然捕获相对位置关系且对长度外推更友好。ALiBi更激进的方案直接给注意力分数加一个随距离增长的负偏置近的词注意力高远的词注意力低无需学习长度外推性能好。长度外推是一个活跃的研究方向模型训练时最大长度是 4K但推理时要处理 128K 的文档怎么办YaRN、LongRoPE 等方法通过对位置编码的插值/外推来扩展上下文长度。3.3 前馈网络与 MoETransformer 的每个层除了注意力还有一个前馈网络FFN两层线性变换中间夹一个激活函数。FFN 的宽度通常是模型维度的 4 倍占了 Transformer 大部分的参数量。一种有趣的解读是注意力层负责信息路由哪些位置的信息要交互FFN 层负责知识存储记忆具体的事实和模式。**混合专家模型MoE**是扩展模型能力的重要技术把 FFN 替换成多个专家多个 FFN每次只激活其中少数几个路由机制决定。这样参数量大幅增加更强的能力但计算量不成比例地增加仍然高效。Mixtral 8×7B 有 467 亿参数但每次前向传播只激活约 130 亿效果接近 700 亿规模的稠密模型。状态空间模型SSM/ Mamba是近年出现的 Transformer 竞争者用线性递推代替注意力训练时可以并行卷积视角推理时可以用递推式类 RNN 视角KV Cache 大小恒定不随序列增长。但目前在大规模应用上还未超越 Transformer。四、预训练与规模扩展从模型到大模型4.1 预训练目标模型学什么大语言模型的主流预训练目标是自回归语言建模Causal Language ModelingCLM给定前t − 1 t-1t−1个词预测第t tt个词。这个目标极其简单但蕴藏的信息量极为丰富——要准确预测下一个词模型必须理解语法、语义、常识、甚至推理能力。对比学习BERT 路线的 MLM掩码语言模型在双向理解任务上有优势但生成能力弱。当前大模型普遍走 GPT 路线Decoder-onlyCLM理由是生成能力是 AGI 的核心且 Decoder-only 架构在大规模下表现更好Scaling Law 在 Decoder-only 上更优美。4.2 数据工程垃圾进垃圾出模型能力上限由数据决定。预训练数据的质量和规模是核心竞争力规模LLaMA-3 训练了 15 万亿 tokenGPT-4 的训练数据量更大。万亿级 token 的处理需要大规模分布式系统。清洗原始网络爬取数据充斥着噪声、重复、低质量内容、有害内容。去重MinHash/SimHash、质量过滤困惑度过滤、分类器过滤是标准流程。配比不同领域数据代码、数学、英文、中文、科学文献的比例影响模型的能力分布。配比是训练秘方的核心部分。合成数据当高质量真实数据不够时用更强的模型生成合成数据来训练较弱的模型蒸馏/自指导。这是 Phi 系列微软证明有效的方向。分词器是数据管道的入口BPEGPT 系列和 SentencePieceT5、LLaMA是主流方案把原始文本切分成 sub-word 单元词汇表通常 3-10 万。分词器的质量直接影响模型对不同语言的处理效率——同样的中文文本不同分词器切出的 token 数量可以差 2-3 倍直接影响训练和推理成本。4.3 规模扩展定律Scaling Laws2020 年 OpenAI 发表的 Scaling Laws 论文发现语言模型的性能测试集损失与**参数量N、数据量D、计算量C**之间存在幂律关系是可预测的。2022 年 DeepMind 的 Chinchilla 论文修正了此前越大越好的认知给出了给定计算预算下的最优配比参数量和训练数据量应该等比例增长每个参数大约需要 20 个 token 的训练数据Chinchilla 最优。这个结论改变了行业实践与其训练一个超大模型但数据不足不如训练一个适中规模但数据充足的模型后者性能更好推理成本更低。LLaMA 系列正是践行这一理念的代表。4.4 分布式训练让千卡 GPU 协同工作训练万亿参数的模型单块 GPU 连参数都放不下必须借助分布式训练数据并行每块 GPU 有完整的模型副本处理不同的数据批次梯度同步。DDPPyTorch 原生是最常用的方案。模型并行模型太大放不进单卡需要切分。张量并行层内切分Megatron-LM、流水线并行层间切分、序列并行序列长度维度切分各有适用场景。ZeROZero Redundancy Optimizer微软 DeepSpeed 提出把优化器状态、梯度、参数分摊到不同 GPU大幅减少每块 GPU 的显存占用。混合精度训练用 BF16 或 FP16 做前向/反向传播用 FP32 维护参数副本和优化器状态平衡计算速度和数值稳定性。五、对齐与微调让模型有用且安全预训练完的模型是一个强大的文本预测机器但它不懂如何遵循指令、不懂安全边界、也不懂人类偏好。对齐Alignment的目标是让模型的行为符合人类的意图和价值观。5.1 高效微调不动大部分参数全量微调Full Fine-tuning更新所有参数效果好但代价高。参数高效微调PEFT应运而生LoRALow-Rank Adaptation假设权重更新矩阵Δ W \Delta WΔW是低秩的用Δ W B A \Delta W BAΔWBAB ∈ R d × r B \in \mathbb{R}^{d \times r}B∈Rd×rA ∈ R r × d A \in \mathbb{R}^{r \times d}A∈Rr×dr ≪ d r \ll dr≪d来近似。只训练 A 和 B参数量不到全模型的 1%但效果接近全量微调。这是当前最主流的微调方法CivitAI 上数以万计的 LoRA 都基于此。QLoRA在 LoRA 的基础上把基础模型量化到 4-bit大幅减少显存占用使得在消费级 GPU 上微调 70B 模型成为可能。Prefix Tuning / Prompt Tuning在输入前加可训练的软提示只训练这些前缀向量模型本身完全冻结。适合多任务快速切换。**指令微调Instruction Tuning**是让预训练模型学会遵循指令的关键步骤用大量的指令回答对进行有监督微调让模型从续写文本变成按要求完成任务。这是 InstructGPT、ChatGPT 的核心秘诀之一。5.2 RLHF从人类反馈中学习偏好指令微调让模型能遵循指令但遵循指令和给出好答案之间还有差距。RLHFReinforcement Learning from Human Feedback的目标是让模型的输出符合人类的主观偏好收集偏好数据给出同一个问题的多个回答让人类标注哪个更好。训练奖励模型RM用这些偏好数据训练一个分类器能打分这个回答有多好。PPO 强化学习用奖励模型的分数作为奖励信号用 PPO 算法更新语言模型让模型生成能获得高分的回答。同时加入 KL 散度约束防止模型为了骗奖励模型而产生极端输出。RLHF 的流程复杂、超参数多、训练不稳定。DPODirect Preference Optimization是 2023 年提出的简化替代方案数学上证明 RLHF 的最优策略有闭合形式可以直接用偏好数据进行监督学习不需要单独训练奖励模型和跑强化学习。效果相当工程复杂度大幅降低正在逐渐成为主流。**Constitutional AICAI**是 Anthropic 提出的方法给模型一套宪法原则集合让模型自我批判和修正自己的输出减少对大量人工标注的依赖。Claude 模型背后正是这一方法。5.3 评估怎么知道模型好不好评估大模型是一个开放性难题自动基准测评MMLU多学科知识、HumanEval代码、GSM8K数学、HELM 等覆盖知识、推理、代码等多个维度。局限性容易被刷榜训练数据污染且不一定反映真实使用体验。人类评测Chatbot ArenaLMSYS 的 ELO 排行榜让真实用户对比两个模型的回答投票选更好的用 ELO 系统排名。这是目前最接近真实用户体验的评测方式。幻觉检测模型会一本正经地胡说八道检测事实性错误是关键挑战。TruthfulQA、FActScore 等基准专门评测幻觉。六、推理加速与部署从实验室到生产环境训练好的模型要服务数以百万计的用户推理的速度和成本是核心挑战。6.1 推理的性能瓶颈自回归生成是逐 token 进行的生成第t tt个 token需要所有前t − 1 t-1t−1个 token 的注意力计算。这天然是串行的且随着序列增长计算量线性增加。KV Cache是解决重复计算的关键在生成第t tt个 token 时前t − 1 t-1t−1个 token 的 Key 和 Value 矩阵已经在之前的步骤里算好了缓存下来就不需要重算。代价是显存随序列长度线性增长——生成长序列时KV Cache 可能占用数十 GB 显存。PagedAttentionvLLM借鉴操作系统的虚拟内存和分页管理思想把 KV Cache 按页管理消除显存碎片大幅提升吞吐量比原始 Huggingface 实现快 24 倍。投机采样Speculative Decoding用一个小模型Draft Model快速生成多个候选 token再用大模型一次性验证接受或拒绝利用了大模型并行验证比串行生成快的特点。在保持输出质量不变的前提下速度提升 2-3 倍。连续批处理Continuous Batching传统批处理需要等待批内所有请求都完成才释放资源连续批处理在迭代级别动态调度某个请求生成完成后立即接入新请求GPU 利用率大幅提升。6.2 量化用更少的比特存储模型模型参数默认是 FP324字节或 BF162字节。量化把参数压缩成更少的比特INT8 量化4字节 → 1字节几乎无精度损失是生产环境的成熟选择。INT4 量化GPTQ、AWQ2字节 → 0.5字节精度略有损失但通常可接受。70B 模型可以在单台 8×24GB 服务器上运行。FP8NVIDIA H100 等新一代 GPU 原生支持在保持类 FP16 精度的同时速度提升 2 倍是大规模生产的方向。量化不是免费的午餐极低比特INT2/INT3的量化损失较大且需要针对性的推理内核支持。6.3 知识蒸馏与剪枝知识蒸馏用大模型Teacher的软标签logits 分布来监督小模型Student的训练传递暗知识。Phi 系列的成功证明高质量合成数据 蒸馏可以让小模型3.8B在很多任务上接近大得多的模型。结构化剪枝移除对模型输出贡献小的注意力头、MLP 神经元减少模型大小需要后续微调来恢复性能。七、应用范式RAG、Agent 与提示工程7.1 提示工程用语言指挥模型提示工程Prompt Engineering是在不改变模型参数的情况下通过设计输入来引导模型输出的艺术零样本Zero-shot直接描述任务让模型完成。适合模型本身能力强的任务。少样本Few-shot在提示中给出几个示例让模型举一反三。对于格式复杂或模型不熟悉的任务效果显著。思维链Chain of ThoughtCoT在提示中加入让我们一步一步来思考引导模型在给出答案前先输出推理过程。这个简单的技巧让 GPT-3 的数学推理能力从接近随机提升到接近 SOTA。原因在于中间推理步骤本身提供了计算空间且模型生成每个 token 时都能看到之前的推理。ReActReason Act让模型交替输出思考和行动思考决定下一步做什么行动调用工具获取外部信息然后根据结果继续思考。是构建能使用工具的智能体的基础框架。结构化输出要求模型以 JSON 等格式输出便于程序解析。现代 API 通常支持 JSON Mode 或 Function Calling 来强制结构化输出。7.2 RAG给模型外接记忆大模型有两个固有局限知识截止日期训练数据有时间边界和上下文长度限制无法把整个知识库放进提示。RAGRetrieval-Augmented Generation通过外接检索系统来解决把外部文档切分成小块Chunk用嵌入模型编码成向量存入向量数据库Chroma、Milvus、Pinecone用户提问时把问题也编码成向量在向量数据库中检索最相关的文档块余弦相似度把检索到的文档块作为上下文和用户问题一起送入大模型由模型综合生成答案RAG 的挑战在于检索质量如果检索到的文档块不相关模型的输出反而会受到噪声干扰。混合检索稠密检索 BM25 关键词检索、重排序Reranking、GraphRAG构建知识图谱辅助检索都是改进检索质量的方向。7.3 智能体Agent让模型主动做事从问答助手到能自主完成任务的 Agent是大模型应用的重要进化方向工具调用Tool Use / Function Calling给模型定义一组工具搜索、代码执行、数据库查询、API 调用模型根据任务决定调用哪个工具、传什么参数获取结果后继续推理。OpenAI 的 Function Calling、Anthropic 的 Tool Use 是主流实现。规划与反思复杂任务需要多步规划。Tree of ThoughtsToT让模型生成多个候选路径并评估Reflexion 让模型反思自己的输出并迭代改进。多智能体协作多个专门化的 Agent 协作完成任务——一个 Agent 负责搜索一个负责代码生成一个负责审核结果由协调者 Agent 统筹调度。AutoGen、CrewAI 是主流框架。记忆系统短期记忆上下文窗口、长期记忆向量数据库、工作记忆外部状态管理构成 Agent 的记忆体系解决上下文长度和跨会话记忆问题。八、学习路线建议看完这篇文章可能你最想问的是这么多知识从哪开始以下是针对不同目标的建议8.1 应用开发者用模型做产品核心路线提示工程 → API 调用 → RAG → Function Calling → Agent 框架不需要深入理解训练细节重点是熟练使用主流大模型 APIOpenAI、Anthropic、各家开源模型掌握 RAG 的基本搭建LangChain/LlamaIndex理解提示工程的基本原则CoT、Few-shot、结构化输出能用 Agent 框架AutoGen/CrewAI构建多步骤自动化流程时间预估1-3 个月可以达到能独立做项目的水平。8.2 算法工程师微调、优化、评估核心路线深度学习基础 → Transformer 架构 → 指令微调 → LoRA → 评估体系重点是吃透 Transformer 的每个组件能用 PyTorch 手写一遍掌握 LoRA/QLoRA 的实践Hugging Face PEFT 库理解 SFT、RLHF、DPO 的原理和适用场景能独立构建评估 pipeline时间预估需要扎实的深度学习基础有基础者 3-6 个月。8.3 研究方向追赶论文前沿核心路线所有数学基础扎实 → 复现经典论文 → 跟踪 arXiv → 找到垂直方向深耕重点是数学基础必须牢固线代、概率、优化缺一不可从复现 Attention Is All You Need 开始逐步推进到 GPT、BERT、LLaMA选定一个垂直方向长上下文、高效训练、多模态、对齐……深入每周跟踪 3-5 篇重要论文时间预估通向研究的路没有捷径至少 1-2 年才能进入前沿。结语大模型知识体系庞杂但有一条内在逻辑把它们串联起来数学工具 → 表示学习 → 规模扩展 → 对齐 → 高效部署 → 应用落地每一层都站在下一层的肩膀上。你不需要同时精通所有层但需要知道每一层在做什么、为什么重要、自己处于哪一层、往哪个方向深入。这个领域变化极快今天的最新方法可能明年就是标准配置。保持对基础原理的理解是在快速变化中保持竞争力的根本——具体的工具会过时但注意力机制的数学、反向传播的链式法则、贝叶斯推断的逻辑不会过时。你目前处于哪个阶段是应用开发、算法调优还是研究方向留言告诉我我可以针对你的情况推荐更具体的学习资源。如果这篇帮到你点赞 收藏后续会持续更新各板块的深度文章。本文为原创技术整理。最后更新2026-05-24
大模型知识大观:从数学基础到应用落地的完整图谱
发布时间:2026/5/24 2:06:17
大模型知识大观从数学基础到应用落地的完整图谱作者技术博主 |更新时间2026-05-24 |阅读时长约 35 分钟标签大语言模型LLMTransformer预训练RLHFRAGAgent知识图谱写给谁看你听过 ChatGPT、Claude、Gemini也知道背后是大模型但打开一篇论文就发现注意力机制、KL 散度、PPO、KV Cache……每个词都认识连在一起就不知所云。本文试图画出一张完整的地图把大模型涉及的知识板块梳理清楚告诉你每块知识是什么、为什么重要、学到哪种程度够用。不求面面俱到但求结构清晰、层次分明。目录一、数学基础地基决定上限二、深度学习基础理解神经网络的通用语言三、Transformer 架构大模型的核心引擎四、预训练与规模扩展从模型到大模型五、对齐与微调让模型有用且安全六、推理加速与部署从实验室到生产环境七、应用范式RAG、Agent 与提示工程八、学习路线建议一、数学基础地基决定上限很多人问学大模型必须精通数学吗答案是看目标。如果只是调用 API 写应用数学可以缓一缓但如果想理解模型为什么这样设计、为什么会出错、怎么改进数学是绕不开的。1.1 线性代数大模型的几何语言大模型处理的一切——文本、图像、音频——最终都被表示为向量和矩阵。理解这一点很多神秘的概念就会变得直观词嵌入是把单词映射到高维空间中的一个点语义相近的词在空间中距离近。“国王减去男人加上女人”结果接近女王——这是向量运算不是魔法。注意力机制的核心计算是矩阵乘法Attention ( Q , K , V ) softmax ( Q K ⊤ d k ) V \text{Attention}(Q, K, V) \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)VAttention(Q,K,V)softmax(dkQK⊤)V。每一个符号都是矩阵理解矩阵乘法的几何意义投影、旋转、缩放就理解了注意力在做什么。**特征值分解SVD**是理解 LoRA 微调的数学基础LoRA 的核心假设是权重更新矩阵是低秩的用两个小矩阵的乘积来近似而这正是矩阵秩和 SVD 的概念。学到哪种程度能手算矩阵乘法理解特征值和特征向量的含义知道什么是范数、内积、余弦相似度够了。1.2 概率与统计不确定性的语言语言模型本质上是一个概率模型给定前文预测下一个词的概率分布。这里面涉及最大似然估计MLE预训练的训练目标找到让观测数据出现概率最大的参数。交叉熵损失就是负对数似然两者等价。KL 散度衡量两个概率分布的距离。RLHF 中用 KL 散度约束微调后的模型不要偏离原始模型太远变分推理VAE的 ELBO 也离不开它。贝叶斯推断理解先验和后验的概念对理解 MAP 估计等价于 L2 正则化和各种不确定性量化方法很有帮助。信息熵语言建模中的困惑度Perplexity本质上是每个词的平均熵是衡量语言模型质量的基础指标。学到哪种程度理解概率分布、期望、条件概率会用 KL 散度和交叉熵知道贝叶斯定理怎么用足矣。1.3 微积分与最优化训练的数学引擎模型训练 在参数空间里找到损失函数最小值的过程。这里涉及链式法则反向传播的数学基础梯度如何从输出层一层一层传回输入层。理解链式法则反向传播就不再神秘。自动微分AutogradPyTorch/JAX 背后的机制不需要手写梯度公式计算图会自动完成微分。梯度下降及其变体SGD、Adam、AdaFactor。Adam 是当前大模型训练的主流优化器理解它的动量项和自适应学习率能帮你理解为什么某些超参数设置会导致训练不稳定。学习率调度warmup cosine decay 是大模型训练的标准配置背后是对损失曲面的经验认识。学到哪种程度能手推一层神经网络的梯度理解 Adam 的更新公式知道为什么学习率太大会发散、太小会收敛慢。二、深度学习基础理解神经网络的通用语言2.1 从感知机到深度网络神经网络的基本单元是神经元对输入做线性变换然后经过一个非线性激活函数。把很多神经元堆叠起来就得到了深度网络。激活函数的选择很有讲究早期的 Sigmoid 和 Tanh 在深层网络中容易导致梯度消失ReLU 解决了这个问题但有死神经元的风险现代大模型普遍使用 SiLUSwish或 GELU它们在平滑性和梯度流方面表现更好。残差连接是深度网络能真正深起来的关键y F ( x ) x y F(x) xyF(x)x让梯度可以跳过某些层直接回传解决了网络极深时的训练困难问题。ResNet 证明了它的效果Transformer 继承并发扬了这一设计。2.2 序列建模的历史为什么需要 Transformer在 Transformer 出现之前序列建模的主流是 RNN/LSTM/GRU。它们按时间步顺序处理序列每一步的隐状态承载着历史信息。RNN 家族有两个根本性缺陷第一无法并行化必须按顺序计算训练速度慢第二长距离依赖问题序列太长时早期的信息容易被遗忘即使 LSTM 的门控机制有所缓解也不彻底。Transformer 用注意力机制彻底绕开了这两个问题任意两个位置之间的信息交互只需一步且所有位置可以并行计算。这是大模型能扩展到数千亿参数的基础——规模需要并行并行需要 Transformer。2.3 正则化与泛化过拟合是所有机器学习模型的敌人大模型也不例外Dropout训练时随机丢弃神经元强迫网络不依赖任何单个特征。现代大模型中 Dropout 用得越来越少数据够多时不需要但在微调阶段仍有价值。批归一化BatchNorm和层归一化LayerNormTransformer 使用 LayerNorm 而非 BatchNorm因为语言模型处理的序列长度不固定LayerNorm 对批大小更鲁棒。Pre-LayerNorm在注意力和 FFN 之前做归一化是现代架构的标准选择训练更稳定。权重衰减L2 正则化等价于高斯先验的 MAP 估计防止权重过大。大模型训练中通常设置较小的权重衰减如 0.1。三、Transformer 架构大模型的核心引擎这是最值得深挖的部分。所有现代大语言模型的底层都是 Transformer理解它的每一个设计决策是理解大模型的关键。3.1 注意力机制全局信息交互注意力机制的核心思想是每个位置的输出是所有位置的信息的加权平均权重由该位置与其他位置的相关性决定。具体计算过程输入X XX分别经过三个线性变换得到Q QQQuery、K KKKey、V VVValue计算注意力分数score Q K ⊤ / d k \text{score} QK^\top / \sqrt{d_k}scoreQK⊤/dk经过 Softmax 得到注意力权重归一化到 0-1 之间且和为 1用注意力权重对V VV做加权平均得到输出除以d k \sqrt{d_k}dk是为了防止点积值过大导致 Softmax 梯度消失——这个小细节在原论文的 Footnote 里很多教程直接略过但它是训练稳定性的关键。多头注意力将注意力并行做多次每个头学习不同类型的依赖关系有的头关注句法结构有的头关注语义相关性有的头关注共指关系。这是 Transformer 表达能力强大的重要原因。**因果掩码Causal Mask**是自回归语言模型的必要组件预测第t tt个词时只能看到1 11到t − 1 t-1t−1个词不能看未来。通过在注意力分数矩阵的上三角位置填充负无穷Softmax 后变为 0实现这一约束。Flash Attention是 2022 年的重要工程优化重新设计注意力的 CUDA 实现利用 GPU 内存层次结构SRAM 比 HBM 快 10 倍把注意力计算的显存从O ( n 2 ) O(n^2)O(n2)降到O ( n ) O(n)O(n)同时速度提升 2-4 倍。这使得处理更长序列成为可能。3.2 位置编码让模型知道顺序注意力机制本身是排列无关的permutation invariant把输入打乱顺序输出不含位置信息时是一样的。但语言是有序的猫追狗和狗追猫意思完全不同。位置编码就是告诉模型每个词在序列中的位置。正弦绝对位置编码原始 Transformer用不同频率的正弦/余弦函数编码位置数学优雅支持任意长度但没有被学习可能不是最优的。可学习位置编码GPT-2/BERT把位置编码当参数训练效果好但不支持超过训练长度的序列。相对位置编码RoPE现代大模型LLaMA、Qwen、ChatGLM的主流选择。把位置信息编码在注意力分数的计算过程中而非加到输入上。数学上通过旋转矩阵实现天然捕获相对位置关系且对长度外推更友好。ALiBi更激进的方案直接给注意力分数加一个随距离增长的负偏置近的词注意力高远的词注意力低无需学习长度外推性能好。长度外推是一个活跃的研究方向模型训练时最大长度是 4K但推理时要处理 128K 的文档怎么办YaRN、LongRoPE 等方法通过对位置编码的插值/外推来扩展上下文长度。3.3 前馈网络与 MoETransformer 的每个层除了注意力还有一个前馈网络FFN两层线性变换中间夹一个激活函数。FFN 的宽度通常是模型维度的 4 倍占了 Transformer 大部分的参数量。一种有趣的解读是注意力层负责信息路由哪些位置的信息要交互FFN 层负责知识存储记忆具体的事实和模式。**混合专家模型MoE**是扩展模型能力的重要技术把 FFN 替换成多个专家多个 FFN每次只激活其中少数几个路由机制决定。这样参数量大幅增加更强的能力但计算量不成比例地增加仍然高效。Mixtral 8×7B 有 467 亿参数但每次前向传播只激活约 130 亿效果接近 700 亿规模的稠密模型。状态空间模型SSM/ Mamba是近年出现的 Transformer 竞争者用线性递推代替注意力训练时可以并行卷积视角推理时可以用递推式类 RNN 视角KV Cache 大小恒定不随序列增长。但目前在大规模应用上还未超越 Transformer。四、预训练与规模扩展从模型到大模型4.1 预训练目标模型学什么大语言模型的主流预训练目标是自回归语言建模Causal Language ModelingCLM给定前t − 1 t-1t−1个词预测第t tt个词。这个目标极其简单但蕴藏的信息量极为丰富——要准确预测下一个词模型必须理解语法、语义、常识、甚至推理能力。对比学习BERT 路线的 MLM掩码语言模型在双向理解任务上有优势但生成能力弱。当前大模型普遍走 GPT 路线Decoder-onlyCLM理由是生成能力是 AGI 的核心且 Decoder-only 架构在大规模下表现更好Scaling Law 在 Decoder-only 上更优美。4.2 数据工程垃圾进垃圾出模型能力上限由数据决定。预训练数据的质量和规模是核心竞争力规模LLaMA-3 训练了 15 万亿 tokenGPT-4 的训练数据量更大。万亿级 token 的处理需要大规模分布式系统。清洗原始网络爬取数据充斥着噪声、重复、低质量内容、有害内容。去重MinHash/SimHash、质量过滤困惑度过滤、分类器过滤是标准流程。配比不同领域数据代码、数学、英文、中文、科学文献的比例影响模型的能力分布。配比是训练秘方的核心部分。合成数据当高质量真实数据不够时用更强的模型生成合成数据来训练较弱的模型蒸馏/自指导。这是 Phi 系列微软证明有效的方向。分词器是数据管道的入口BPEGPT 系列和 SentencePieceT5、LLaMA是主流方案把原始文本切分成 sub-word 单元词汇表通常 3-10 万。分词器的质量直接影响模型对不同语言的处理效率——同样的中文文本不同分词器切出的 token 数量可以差 2-3 倍直接影响训练和推理成本。4.3 规模扩展定律Scaling Laws2020 年 OpenAI 发表的 Scaling Laws 论文发现语言模型的性能测试集损失与**参数量N、数据量D、计算量C**之间存在幂律关系是可预测的。2022 年 DeepMind 的 Chinchilla 论文修正了此前越大越好的认知给出了给定计算预算下的最优配比参数量和训练数据量应该等比例增长每个参数大约需要 20 个 token 的训练数据Chinchilla 最优。这个结论改变了行业实践与其训练一个超大模型但数据不足不如训练一个适中规模但数据充足的模型后者性能更好推理成本更低。LLaMA 系列正是践行这一理念的代表。4.4 分布式训练让千卡 GPU 协同工作训练万亿参数的模型单块 GPU 连参数都放不下必须借助分布式训练数据并行每块 GPU 有完整的模型副本处理不同的数据批次梯度同步。DDPPyTorch 原生是最常用的方案。模型并行模型太大放不进单卡需要切分。张量并行层内切分Megatron-LM、流水线并行层间切分、序列并行序列长度维度切分各有适用场景。ZeROZero Redundancy Optimizer微软 DeepSpeed 提出把优化器状态、梯度、参数分摊到不同 GPU大幅减少每块 GPU 的显存占用。混合精度训练用 BF16 或 FP16 做前向/反向传播用 FP32 维护参数副本和优化器状态平衡计算速度和数值稳定性。五、对齐与微调让模型有用且安全预训练完的模型是一个强大的文本预测机器但它不懂如何遵循指令、不懂安全边界、也不懂人类偏好。对齐Alignment的目标是让模型的行为符合人类的意图和价值观。5.1 高效微调不动大部分参数全量微调Full Fine-tuning更新所有参数效果好但代价高。参数高效微调PEFT应运而生LoRALow-Rank Adaptation假设权重更新矩阵Δ W \Delta WΔW是低秩的用Δ W B A \Delta W BAΔWBAB ∈ R d × r B \in \mathbb{R}^{d \times r}B∈Rd×rA ∈ R r × d A \in \mathbb{R}^{r \times d}A∈Rr×dr ≪ d r \ll dr≪d来近似。只训练 A 和 B参数量不到全模型的 1%但效果接近全量微调。这是当前最主流的微调方法CivitAI 上数以万计的 LoRA 都基于此。QLoRA在 LoRA 的基础上把基础模型量化到 4-bit大幅减少显存占用使得在消费级 GPU 上微调 70B 模型成为可能。Prefix Tuning / Prompt Tuning在输入前加可训练的软提示只训练这些前缀向量模型本身完全冻结。适合多任务快速切换。**指令微调Instruction Tuning**是让预训练模型学会遵循指令的关键步骤用大量的指令回答对进行有监督微调让模型从续写文本变成按要求完成任务。这是 InstructGPT、ChatGPT 的核心秘诀之一。5.2 RLHF从人类反馈中学习偏好指令微调让模型能遵循指令但遵循指令和给出好答案之间还有差距。RLHFReinforcement Learning from Human Feedback的目标是让模型的输出符合人类的主观偏好收集偏好数据给出同一个问题的多个回答让人类标注哪个更好。训练奖励模型RM用这些偏好数据训练一个分类器能打分这个回答有多好。PPO 强化学习用奖励模型的分数作为奖励信号用 PPO 算法更新语言模型让模型生成能获得高分的回答。同时加入 KL 散度约束防止模型为了骗奖励模型而产生极端输出。RLHF 的流程复杂、超参数多、训练不稳定。DPODirect Preference Optimization是 2023 年提出的简化替代方案数学上证明 RLHF 的最优策略有闭合形式可以直接用偏好数据进行监督学习不需要单独训练奖励模型和跑强化学习。效果相当工程复杂度大幅降低正在逐渐成为主流。**Constitutional AICAI**是 Anthropic 提出的方法给模型一套宪法原则集合让模型自我批判和修正自己的输出减少对大量人工标注的依赖。Claude 模型背后正是这一方法。5.3 评估怎么知道模型好不好评估大模型是一个开放性难题自动基准测评MMLU多学科知识、HumanEval代码、GSM8K数学、HELM 等覆盖知识、推理、代码等多个维度。局限性容易被刷榜训练数据污染且不一定反映真实使用体验。人类评测Chatbot ArenaLMSYS 的 ELO 排行榜让真实用户对比两个模型的回答投票选更好的用 ELO 系统排名。这是目前最接近真实用户体验的评测方式。幻觉检测模型会一本正经地胡说八道检测事实性错误是关键挑战。TruthfulQA、FActScore 等基准专门评测幻觉。六、推理加速与部署从实验室到生产环境训练好的模型要服务数以百万计的用户推理的速度和成本是核心挑战。6.1 推理的性能瓶颈自回归生成是逐 token 进行的生成第t tt个 token需要所有前t − 1 t-1t−1个 token 的注意力计算。这天然是串行的且随着序列增长计算量线性增加。KV Cache是解决重复计算的关键在生成第t tt个 token 时前t − 1 t-1t−1个 token 的 Key 和 Value 矩阵已经在之前的步骤里算好了缓存下来就不需要重算。代价是显存随序列长度线性增长——生成长序列时KV Cache 可能占用数十 GB 显存。PagedAttentionvLLM借鉴操作系统的虚拟内存和分页管理思想把 KV Cache 按页管理消除显存碎片大幅提升吞吐量比原始 Huggingface 实现快 24 倍。投机采样Speculative Decoding用一个小模型Draft Model快速生成多个候选 token再用大模型一次性验证接受或拒绝利用了大模型并行验证比串行生成快的特点。在保持输出质量不变的前提下速度提升 2-3 倍。连续批处理Continuous Batching传统批处理需要等待批内所有请求都完成才释放资源连续批处理在迭代级别动态调度某个请求生成完成后立即接入新请求GPU 利用率大幅提升。6.2 量化用更少的比特存储模型模型参数默认是 FP324字节或 BF162字节。量化把参数压缩成更少的比特INT8 量化4字节 → 1字节几乎无精度损失是生产环境的成熟选择。INT4 量化GPTQ、AWQ2字节 → 0.5字节精度略有损失但通常可接受。70B 模型可以在单台 8×24GB 服务器上运行。FP8NVIDIA H100 等新一代 GPU 原生支持在保持类 FP16 精度的同时速度提升 2 倍是大规模生产的方向。量化不是免费的午餐极低比特INT2/INT3的量化损失较大且需要针对性的推理内核支持。6.3 知识蒸馏与剪枝知识蒸馏用大模型Teacher的软标签logits 分布来监督小模型Student的训练传递暗知识。Phi 系列的成功证明高质量合成数据 蒸馏可以让小模型3.8B在很多任务上接近大得多的模型。结构化剪枝移除对模型输出贡献小的注意力头、MLP 神经元减少模型大小需要后续微调来恢复性能。七、应用范式RAG、Agent 与提示工程7.1 提示工程用语言指挥模型提示工程Prompt Engineering是在不改变模型参数的情况下通过设计输入来引导模型输出的艺术零样本Zero-shot直接描述任务让模型完成。适合模型本身能力强的任务。少样本Few-shot在提示中给出几个示例让模型举一反三。对于格式复杂或模型不熟悉的任务效果显著。思维链Chain of ThoughtCoT在提示中加入让我们一步一步来思考引导模型在给出答案前先输出推理过程。这个简单的技巧让 GPT-3 的数学推理能力从接近随机提升到接近 SOTA。原因在于中间推理步骤本身提供了计算空间且模型生成每个 token 时都能看到之前的推理。ReActReason Act让模型交替输出思考和行动思考决定下一步做什么行动调用工具获取外部信息然后根据结果继续思考。是构建能使用工具的智能体的基础框架。结构化输出要求模型以 JSON 等格式输出便于程序解析。现代 API 通常支持 JSON Mode 或 Function Calling 来强制结构化输出。7.2 RAG给模型外接记忆大模型有两个固有局限知识截止日期训练数据有时间边界和上下文长度限制无法把整个知识库放进提示。RAGRetrieval-Augmented Generation通过外接检索系统来解决把外部文档切分成小块Chunk用嵌入模型编码成向量存入向量数据库Chroma、Milvus、Pinecone用户提问时把问题也编码成向量在向量数据库中检索最相关的文档块余弦相似度把检索到的文档块作为上下文和用户问题一起送入大模型由模型综合生成答案RAG 的挑战在于检索质量如果检索到的文档块不相关模型的输出反而会受到噪声干扰。混合检索稠密检索 BM25 关键词检索、重排序Reranking、GraphRAG构建知识图谱辅助检索都是改进检索质量的方向。7.3 智能体Agent让模型主动做事从问答助手到能自主完成任务的 Agent是大模型应用的重要进化方向工具调用Tool Use / Function Calling给模型定义一组工具搜索、代码执行、数据库查询、API 调用模型根据任务决定调用哪个工具、传什么参数获取结果后继续推理。OpenAI 的 Function Calling、Anthropic 的 Tool Use 是主流实现。规划与反思复杂任务需要多步规划。Tree of ThoughtsToT让模型生成多个候选路径并评估Reflexion 让模型反思自己的输出并迭代改进。多智能体协作多个专门化的 Agent 协作完成任务——一个 Agent 负责搜索一个负责代码生成一个负责审核结果由协调者 Agent 统筹调度。AutoGen、CrewAI 是主流框架。记忆系统短期记忆上下文窗口、长期记忆向量数据库、工作记忆外部状态管理构成 Agent 的记忆体系解决上下文长度和跨会话记忆问题。八、学习路线建议看完这篇文章可能你最想问的是这么多知识从哪开始以下是针对不同目标的建议8.1 应用开发者用模型做产品核心路线提示工程 → API 调用 → RAG → Function Calling → Agent 框架不需要深入理解训练细节重点是熟练使用主流大模型 APIOpenAI、Anthropic、各家开源模型掌握 RAG 的基本搭建LangChain/LlamaIndex理解提示工程的基本原则CoT、Few-shot、结构化输出能用 Agent 框架AutoGen/CrewAI构建多步骤自动化流程时间预估1-3 个月可以达到能独立做项目的水平。8.2 算法工程师微调、优化、评估核心路线深度学习基础 → Transformer 架构 → 指令微调 → LoRA → 评估体系重点是吃透 Transformer 的每个组件能用 PyTorch 手写一遍掌握 LoRA/QLoRA 的实践Hugging Face PEFT 库理解 SFT、RLHF、DPO 的原理和适用场景能独立构建评估 pipeline时间预估需要扎实的深度学习基础有基础者 3-6 个月。8.3 研究方向追赶论文前沿核心路线所有数学基础扎实 → 复现经典论文 → 跟踪 arXiv → 找到垂直方向深耕重点是数学基础必须牢固线代、概率、优化缺一不可从复现 Attention Is All You Need 开始逐步推进到 GPT、BERT、LLaMA选定一个垂直方向长上下文、高效训练、多模态、对齐……深入每周跟踪 3-5 篇重要论文时间预估通向研究的路没有捷径至少 1-2 年才能进入前沿。结语大模型知识体系庞杂但有一条内在逻辑把它们串联起来数学工具 → 表示学习 → 规模扩展 → 对齐 → 高效部署 → 应用落地每一层都站在下一层的肩膀上。你不需要同时精通所有层但需要知道每一层在做什么、为什么重要、自己处于哪一层、往哪个方向深入。这个领域变化极快今天的最新方法可能明年就是标准配置。保持对基础原理的理解是在快速变化中保持竞争力的根本——具体的工具会过时但注意力机制的数学、反向传播的链式法则、贝叶斯推断的逻辑不会过时。你目前处于哪个阶段是应用开发、算法调优还是研究方向留言告诉我我可以针对你的情况推荐更具体的学习资源。如果这篇帮到你点赞 收藏后续会持续更新各板块的深度文章。本文为原创技术整理。最后更新2026-05-24