Skip to content
/

🚀 推理引擎与服务化

探索 vLLM、NVIDIA Triton Inference Server、TensorRT 等推理框架与部署方案。


📄

vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

Woosuk Kwon et al. · UC Berkeley · 2023

提出 PagedAttention 机制,通过虚拟内存分页管理 KV Cache,大幅提升 LLM 推理吞吐量,减少内存浪费。

vLLMPagedAttentionKV CacheLLM Serving
📄

TensorRT-LLM: A High-Performance Inference Framework for LLMs

NVIDIA · 2024

NVIDIA 推出的高性能 LLM 推理框架,支持量化、Kernel 融合、In-flight Batching 等核心优化技术。

TensorRT量化Kernel 融合NVIDIA
📄

NVIDIA Triton Inference Server: 模型服务化部署实践

NVIDIA · Triton Inference Server

学习 Triton Inference Server 的架构设计、模型仓库管理、动态批处理与多模型编排等生产级部署方案。

Triton ServerModel ServingDynamic Batching
📄

SGLang: Efficient Execution of Structured Language Model Programs

Lianmin Zheng et al. · UC Berkeley & Stanford · 2024

提出结构化生成语言 SGLang,通过 RadixAttention(KV Cache 自动复用)、压缩有限状态机(高速约束解码)和 API 推测执行三大优化,将复杂 LLM 程序加速最高 6.4 倍。

SGLangRadixAttentionConstrained DecodingLLM Programming
📄

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Tri Dao et al. · Stanford University · NeurIPS 2022

提出 IO 感知的精确注意力算法,通过分块计算(Tiling)和在线 Softmax 避免实体化 N² 注意力矩阵,将内存复杂度从 O(N²) 降至 O(N),墙钟时间快 2-4 倍。

FlashAttentionIO-AwareTilingKernel Fusion
📄

Clipper: A Low-Latency Online Prediction Serving System

Daniel Crankshaw et al. · UC Berkeley · NSDI 2017

最早系统性地将 ML 模型推向在线推理服务的通用 Serving 系统之一,通过模型抽象层(容器化 + 自适应批处理)和模型选择层(Bandit 算法 + 集成学习)解决框架碎片化与在线模型选优问题。

Model ServingAdaptive BatchingBandit AlgorithmEnsemble

💡 持续更新中

更多推理引擎与服务化相关的论文解读和学习笔记将陆续更新,敬请关注!

Released under the MIT License.