大规模训练技术

本章从工程视角系统梳理大模型训练的“系统三角”：

目标不是罗列名词，而是给出一套可落地的选型逻辑：在给定模型规模、上下文长度、集群形态下，如何组合 DP/TP/PP/ZeRO/FSDP，并在可用的成本内把训练跑稳。

分布式训练基础

数据并行（Data Parallel, DP）把 batch 切到多卡上，每张卡做前向与反向，最后对梯度做 all-reduce 同步：

典型瓶颈：梯度同步通信。优化方向包括通信-计算重叠、ZeRO/FSDP 分片等。

“模型并行”是一个总称，常见两类：

把大矩阵乘按维度切分到多卡（例如把 FFN/Attention 的线性层按列/按行切），核心代价是：每层都会引入通信（all-reduce / all-gather）。

收益是：单卡显存压力下降，可以训练更大的 (d) 或更长的序列。

把参数、梯度、优化器状态分片到不同卡上（典型是 ZeRO stage 1/2/3，或 PyTorch FSDP）。

工程直觉：

流水线并行（Pipeline Parallel, PP）按层切分模型，把不同 layer 放在不同 GPU 上，并通过 micro-batch 填满流水线。

现代系统常把 DP + TP + PP 组合成 3D 并行，以适配超大模型。

混合精度的目标是：用更低精度的 GEMM 提升吞吐与降低显存，同时用策略保证数值稳定。

当梯度很小导致下溢时，引入缩放系数 (s)：

并通过动态策略在溢出时降低 (s)。

当显存不够放下目标 batch 时，把一个大 batch 拆成多个 micro-batch，累积梯度再更新一次参数。

注意：学习率与有效 batch size 相关；改变累积步数相当于改变有效 batch，需要同步调整学习率/调度。

反向传播需要保存中间激活。检查点的做法是：

它用额外算力换显存，是训练长上下文/深层模型的常用手段。

大模型训练中最关键的超参通常不是“花哨的 trick”，而是这些朴素项：