🏋️ 分布式训练
探索 DeepSpeed ZeRO、Megatron-LM、FSDP 等分布式训练框架与大规模模型训练技术。
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
提出 ZeRO(Zero Redundancy Optimizer),通过三阶段递进地分片优化器状态、梯度和参数,消除数据并行中的内存冗余,使可训练模型参数量推向万亿级别。
ZeRO-Offload: Democratizing Billion-Scale Model Training
将优化器状态和梯度卸载到 CPU 内存,通过数据流图分析推导最优卸载策略,使单张 GPU 可训练超过 100 亿参数的模型,同时维持接近纯 GPU 训练的吞吐量。
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning
将内存卸载扩展到 NVMe SSD,构建 GPU-CPU-NVMe 三级存储卸载引擎,辅以带宽中心化分片和四路重叠通信,在 512 张 V100 上成功训练 32 万亿参数模型。
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
针对 Transformer 设计层内张量并行方案,通过 MLP 列-行并行、注意力头切分和并行 Cross-Entropy,每层仅需 2 次 AllReduce,在 512 张 V100 上高效训练 83 亿参数模型。
💡 持续更新中
更多分布式训练相关的论文解读和学习笔记将陆续更新,敬请关注!