导航菜单
切换主题
框架库/LMDeploy
LMDeploy

LMDeploy

推理框架开源
5.0k Stars·Apache-2.0

LMDeploy 是上海人工智能实验室开发的 LLM 部署工具包,支持模型压缩、高效推理和服务部署。

框架介绍

LMDeploy 是由上海人工智能实验室(Shanghai AI Laboratory)开发的 LLM 部署工具包,集成了模型压缩、高效推理和服务部署的完整解决方案。它是 InternLM 项目的配套工具。 LMDeploy 的设计目标是"全流程优化"——从模型量化到推理服务,提供端到端的优化方案。其 TurboMind 推理引擎在 NVIDIA GPU 上实现了优秀的性能表现。

核心特性

1

模型压缩

支持 AWQ、GPTQ、KV Cache 量化等多种压缩方案

2

TurboMind 引擎

高性能推理引擎,优化 CUDA 内核

3

服务部署

集成 Triton Inference Server,支持生产部署

4

多后端支持

支持 PyTorch、TurboMind、TRT-LLM 多种后端

5

OpenAI 兼容

提供 OpenAI 兼容的 API 服务

6

流式输出

支持流式生成,优化用户体验

应用场景

模型压缩

压缩大模型以适应有限显存

高效服务

部署高性能 LLM 推理服务

InternLM 部署

InternLM 系列模型的官方部署工具

国产化适配

适配国产 GPU 和 AI 芯片

适用人群与场景

国内开发者

需要国产化 LLM 部署方案的开发者

InternLM 用户

使用 InternLM 系列模型的用户

模型部署工程师

负责 LLM 模型部署的工程师

性能优化者

需要优化推理性能的开发者

README