大模型训练全流程:预训练,监督微调,RLHF