Appearance
涵盖 CUDA、vLLM、NVIDIA Triton、OpenAI Triton、TensorRT 等 AI Infra 全栈技术
深入 CUDA 并行编程,掌握 GPU 架构、内存优化与高性能计算核心技巧。
查看全部笔记
探索 vLLM、NVIDIA Triton Inference Server、TensorRT 等推理框架与部署方案。
查看全部文献
学习 OpenAI Triton 等编译器工具,理解算子融合、Kernel 自动生成等前沿技术。
深入 DeepSpeed ZeRO、Megatron-LM、FSDP 等分布式训练框架,掌握大模型训练的内存优化与并行策略。
从硬件到软件栈,覆盖训练、推理、调度与部署的 AI 基础设施全貌。