vLLM

推理框架开源

50.0k Stars·Apache-2.0

vLLM 是一个高性能 LLM 推理和服务框架，通过 PagedAttention 技术实现卓越的吞吐量和内存效率。

框架介绍

vLLM 是一个面向生产环境的高性能 LLM 推理和服务框架。它由 UC Berkeley 的研究团队开发，核心创新是 PagedAttention 技术，显著提升了 GPU 内存利用率和推理吞吐量。 vLLM 的设计目标是"生产级性能"——通过连续批处理、优化的注意力实现和高效的 KV 缓存管理，在相同硬件上实现比传统方案高 2-4 倍的吞吐量。它广泛应用于各大公司的 LLM 服务基础设施。

核心特性

PagedAttention

创新的分页注意力机制，高效管理 KV 缓存内存

连续批处理

动态批处理请求，最大化 GPU 利用率

OpenAI 兼容

提供与 OpenAI API 完全兼容的服务接口

多模型支持

支持 Llama、Qwen、Mistral、Mixtral 等主流模型

分布式推理

支持张量并行和流水线并行，跨多 GPU 推理

量化支持

支持 AWQ、GPTQ、FP8 等多种量化方案

应用场景

高并发服务

处理大量并发请求的 LLM API 服务

RAG 后端

作为 RAG 应用的生成模型后端

聊天机器人

支持多轮对话的高性能聊天服务

批量推理

高效处理大规模离线推理任务

适用人群与场景

平台工程师

构建和维护 LLM 服务基础设施的工程师

AI 公司

需要自建 LLM 服务能力的 AI 公司

云服务商

提供 LLM 推理服务的云平台

大规模应用

需要高吞吐量推理的大规模应用开发者