LMDeploy

推理框架开源

5.0k Stars·Apache-2.0

LMDeploy 是上海人工智能实验室开发的 LLM 部署工具包，支持模型压缩、高效推理和服务部署。

框架介绍

LMDeploy 是由上海人工智能实验室（Shanghai AI Laboratory）开发的 LLM 部署工具包，集成了模型压缩、高效推理和服务部署的完整解决方案。它是 InternLM 项目的配套工具。 LMDeploy 的设计目标是"全流程优化"——从模型量化到推理服务，提供端到端的优化方案。其 TurboMind 推理引擎在 NVIDIA GPU 上实现了优秀的性能表现。

核心特性

模型压缩

支持 AWQ、GPTQ、KV Cache 量化等多种压缩方案

TurboMind 引擎

高性能推理引擎，优化 CUDA 内核

服务部署

集成 Triton Inference Server，支持生产部署

多后端支持

支持 PyTorch、TurboMind、TRT-LLM 多种后端

OpenAI 兼容

提供 OpenAI 兼容的 API 服务

流式输出

支持流式生成，优化用户体验

应用场景

模型压缩

压缩大模型以适应有限显存

高效服务

部署高性能 LLM 推理服务

InternLM 部署

InternLM 系列模型的官方部署工具

国产化适配

适配国产 GPU 和 AI 芯片

适用人群与场景

国内开发者

需要国产化 LLM 部署方案的开发者

InternLM 用户

使用 InternLM 系列模型的用户

模型部署工程师

负责 LLM 模型部署的工程师

性能优化者

需要优化推理性能的开发者

LMDeploy

框架介绍

核心特性

模型压缩

TurboMind 引擎

服务部署

多后端支持

OpenAI 兼容

流式输出

应用场景

模型压缩

高效服务

InternLM 部署

国产化适配

适用人群与场景

国内开发者

InternLM 用户

模型部署工程师

性能优化者

README