大模型后训练技术体系深度解析:从 SFT 到 Iterative RL 的完整训练流水线 大模型后训练技术体系深度解析:从 SFT 到 Iterative RL 的完整训练流水线目录摘要一、后训练时代的范式转变二、监督微调 SFT:指令遵循的基石三、奖励建模:偏好信号的量化四、PPO 与 RLHF:从人类反馈中强化学习