🚀 推理引擎与服务化

探索 vLLM、NVIDIA Triton Inference Server、TensorRT 等推理框架与部署方案。

Woosuk Kwon et al. · UC Berkeley · 2023

提出 PagedAttention 机制，通过虚拟内存分页管理 KV Cache，大幅提升 LLM 推理吞吐量，减少内存浪费。

NVIDIA · 2024

NVIDIA 推出的高性能 LLM 推理框架，支持量化、Kernel 融合、In-flight Batching 等核心优化技术。

NVIDIA · Triton Inference Server

学习 Triton Inference Server 的架构设计、模型仓库管理、动态批处理与多模型编排等生产级部署方案。

Lianmin Zheng et al. · UC Berkeley & Stanford · 2024

提出结构化生成语言 SGLang，通过 RadixAttention（KV Cache 自动复用）、压缩有限状态机（高速约束解码）和 API 推测执行三大优化，将复杂 LLM 程序加速最高 6.4 倍。

Tri Dao et al. · Stanford University · NeurIPS 2022

提出 IO 感知的精确注意力算法，通过分块计算（Tiling）和在线 Softmax 避免实体化 N² 注意力矩阵，将内存复杂度从 O(N²) 降至 O(N)，墙钟时间快 2-4 倍。

Daniel Crankshaw et al. · UC Berkeley · NSDI 2017

最早系统性地将 ML 模型推向在线推理服务的通用 Serving 系统之一，通过模型抽象层（容器化 + 自适应批处理）和模型选择层（Bandit 算法 + 集成学习）解决框架碎片化与在线模型选优问题。

💡 持续更新中

更多推理引擎与服务化相关的论文解读和学习笔记将陆续更新，敬请关注！

🚀 推理引擎与服务化 ​