🏋️ 分布式训练

探索 DeepSpeed ZeRO、Megatron-LM、FSDP 等分布式训练框架与大规模模型训练技术。

Samyam Rajbhandari et al. · Microsoft · SC 2020

提出 ZeRO（Zero Redundancy Optimizer），通过三阶段递进地分片优化器状态、梯度和参数，消除数据并行中的内存冗余，使可训练模型参数量推向万亿级别。

Jie Ren et al. · Microsoft & UC Merced · USENIX ATC 2021

将优化器状态和梯度卸载到 CPU 内存，通过数据流图分析推导最优卸载策略，使单张 GPU 可训练超过 100 亿参数的模型，同时维持接近纯 GPU 训练的吞吐量。

Samyam Rajbhandari et al. · Microsoft · SC 2021

将内存卸载扩展到 NVMe SSD，构建 GPU-CPU-NVMe 三级存储卸载引擎，辅以带宽中心化分片和四路重叠通信，在 512 张 V100 上成功训练 32 万亿参数模型。

Mohammad Shoeybi et al. · NVIDIA · 2019

针对 Transformer 设计层内张量并行方案，通过 MLP 列-行并行、注意力头切分和并行 Cross-Entropy，每层仅需 2 次 AllReduce，在 512 张 V100 上高效训练 83 亿参数模型。

💡 持续更新中

更多分布式训练相关的论文解读和学习笔记将陆续更新，敬请关注！

🏋️ 分布式训练 ​