🚀 推理引擎与服务化
探索 vLLM、NVIDIA Triton Inference Server、TensorRT 等推理框架与部署方案。
vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention
提出 PagedAttention 机制,通过虚拟内存分页管理 KV Cache,大幅提升 LLM 推理吞吐量,减少内存浪费。
TensorRT-LLM: A High-Performance Inference Framework for LLMs
NVIDIA 推出的高性能 LLM 推理框架,支持量化、Kernel 融合、In-flight Batching 等核心优化技术。
NVIDIA Triton Inference Server: 模型服务化部署实践
学习 Triton Inference Server 的架构设计、模型仓库管理、动态批处理与多模型编排等生产级部署方案。
SGLang: Efficient Execution of Structured Language Model Programs
提出结构化生成语言 SGLang,通过 RadixAttention(KV Cache 自动复用)、压缩有限状态机(高速约束解码)和 API 推测执行三大优化,将复杂 LLM 程序加速最高 6.4 倍。
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
提出 IO 感知的精确注意力算法,通过分块计算(Tiling)和在线 Softmax 避免实体化 N² 注意力矩阵,将内存复杂度从 O(N²) 降至 O(N),墙钟时间快 2-4 倍。
Clipper: A Low-Latency Online Prediction Serving System
最早系统性地将 ML 模型推向在线推理服务的通用 Serving 系统之一,通过模型抽象层(容器化 + 自适应批处理)和模型选择层(Bandit 算法 + 集成学习)解决框架碎片化与在线模型选优问题。
💡 持续更新中
更多推理引擎与服务化相关的论文解读和学习笔记将陆续更新,敬请关注!