LMDeploy
推理框架开源5.0k Stars·Apache-2.0
LMDeploy 是上海人工智能实验室开发的 LLM 部署工具包,支持模型压缩、高效推理和服务部署。
框架介绍
LMDeploy 是由上海人工智能实验室(Shanghai AI Laboratory)开发的 LLM 部署工具包,集成了模型压缩、高效推理和服务部署的完整解决方案。它是 InternLM 项目的配套工具。 LMDeploy 的设计目标是"全流程优化"——从模型量化到推理服务,提供端到端的优化方案。其 TurboMind 推理引擎在 NVIDIA GPU 上实现了优秀的性能表现。
核心特性
1
模型压缩
支持 AWQ、GPTQ、KV Cache 量化等多种压缩方案
2
TurboMind 引擎
高性能推理引擎,优化 CUDA 内核
3
服务部署
集成 Triton Inference Server,支持生产部署
4
多后端支持
支持 PyTorch、TurboMind、TRT-LLM 多种后端
5
OpenAI 兼容
提供 OpenAI 兼容的 API 服务
6
流式输出
支持流式生成,优化用户体验
应用场景
模型压缩
压缩大模型以适应有限显存
高效服务
部署高性能 LLM 推理服务
InternLM 部署
InternLM 系列模型的官方部署工具
国产化适配
适配国产 GPU 和 AI 芯片
适用人群与场景
国内开发者
需要国产化 LLM 部署方案的开发者
InternLM 用户
使用 InternLM 系列模型的用户
模型部署工程师
负责 LLM 模型部署的工程师
性能优化者
需要优化推理性能的开发者