Skip to content
/

🏋️ 分布式训练

探索 DeepSpeed ZeRO、Megatron-LM、FSDP 等分布式训练框架与大规模模型训练技术。


📄

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

Samyam Rajbhandari et al. · Microsoft · SC 2020

提出 ZeRO(Zero Redundancy Optimizer),通过三阶段递进地分片优化器状态、梯度和参数,消除数据并行中的内存冗余,使可训练模型参数量推向万亿级别。

DeepSpeedZeROData ParallelismMemory Optimization
📄

ZeRO-Offload: Democratizing Billion-Scale Model Training

Jie Ren et al. · Microsoft & UC Merced · USENIX ATC 2021

将优化器状态和梯度卸载到 CPU 内存,通过数据流图分析推导最优卸载策略,使单张 GPU 可训练超过 100 亿参数的模型,同时维持接近纯 GPU 训练的吞吐量。

DeepSpeedZeRO-OffloadCPU OffloadingHeterogeneous Training
📄

ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning

Samyam Rajbhandari et al. · Microsoft · SC 2021

将内存卸载扩展到 NVMe SSD,构建 GPU-CPU-NVMe 三级存储卸载引擎,辅以带宽中心化分片和四路重叠通信,在 512 张 V100 上成功训练 32 万亿参数模型。

DeepSpeedZeRO-InfinityNVMe OffloadingStorage Hierarchy
📄

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Mohammad Shoeybi et al. · NVIDIA · 2019

针对 Transformer 设计层内张量并行方案,通过 MLP 列-行并行、注意力头切分和并行 Cross-Entropy,每层仅需 2 次 AllReduce,在 512 张 V100 上高效训练 83 亿参数模型。

Megatron-LMTensor ParallelismModel ParallelismNVIDIA

💡 持续更新中

更多分布式训练相关的论文解读和学习笔记将陆续更新,敬请关注!

Released under the MIT License.