大语言模型训练常被称为玄学,是因为参数规模巨大、可观测信号有限,超参数、数据配方和训练目标互相耦合。这里从预训练、微调、RLHF 三个阶段讲起,解释梯度下降、反向传播、Loss 曲线以及训练中常见的失控模式。