导航菜单

切换主题

vLLM

vLLM是一个高性能大语言模型推理和服务框架，核心创新是PagedAttention算法，实现高效的KV Cache内存管理。PagedAttention原理：分页内存管理；吞吐量优化：连续批处理；模型支持：主流开源LLM；部署方式：API服务、离线推理；性能调优：参数配置指南。

资源类型

全部 📄 文章 🎬 视频 💻 代码 📚 官方文档 🤖 大模型官方

难度

全部入门进阶高级专家

学习资源(10 个)

Continuous Batching Analysis Paper

批处理分析论文

百度千帆 - vLLM集成实践

百度千帆vLLM集成

华为云 - vLLM服务部署

华为云vLLM部署

腾讯云TI - vLLM推理服务

腾讯云vLLM服务

掘金 - vLLM部署实战

部署实战指南

SegmentFault - vLLM性能优化

性能优化技巧

开源中国 - vLLM技术分析

开源项目分析

51CTO - vLLM企业应用

企业应用案例

vLLM Official Documentation

vLLM官方文档

Anyscale - vLLM Production Guide

Anyscale生产指南