模型训练的概念速通 一、历史发展柯西提出梯度下降ML机器学习提出反向传播RLHF应用人类偏好的强化学习发扬光大OpenAI发布了PPO算法微软提出了LoRA微调极少参数撬动强大模型SFT作为范式ChatGPT横空出世DPO省去了复杂的奖励模型训练让偏好对齐变得大道至简Deepseek验证了GRPO摒弃了传统的评价网络Critic,用群体相对优势激发出模型惊人的纯粹推理能力二、训练的概念核心调整无序的权重到智慧的过程基础方法1.梯度下降 2.反向传播预训练PreTrain进行知识填充监督微调SFTLoRA学会对话、进行低阶矩阵微调RLHF(PPO, DPO, GRPO)符合人类思维方式的强化学习三、SFTSupervised Fine-Tuning核心把“只会续写的基座模型”变成“能听懂指令的对话模型聊天助手”区别输入数据变化。Pretrain是直接把整个问答组成的句子扔进去而SFT会告诉模型哪一部分是问题哪一部分是回答所以只计算回答部分的loss四、LoRALow-Rank Adaptation核心大矩阵拆分为AB小矩阵是一种低秩适应区别Lora允许每个人基于自己的数据微调出自己的模型,用极少的参数达到接近全参微调的性能。调整的是结构不是数据五、RLReinforcement Learning核心智能体在环境中通过试错来进行学习奖惩机制如训练小狗区别RL并没有现成的标准答案来模仿要靠自己进行探索六、RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习PPOProximal Policy近端策略优化自己做题自己预测对照奖励模型的答案进行修改。经典算法DPODirect Preference Optimization直接偏好优化只有对或者错。直接把偏好数据来进行优化即A好于B构造二元分类损失不训练单独奖励模型简化对齐GRPOGroup Relative Policy Optimization分组相对策略优化处理逻辑链条类似蚂蚁寻路在组内评估优势也不需要评估网络高效对齐总结如图所示