TGI
推理框架开源10.0k Stars·Apache-2.0
Text Generation Inference (TGI) 是 Hugging Face 开发的生产级 LLM 推理服务器,用于支持 Hugging Chat。
框架介绍
TGI(Text Generation Inference)是 Hugging Face 开发的生产级 LLM 推理服务器,用于支持 Hugging Chat、Inference API 和 Inference Endpoints 等服务。 TGI 的设计目标是"生产就绪"——提供经过大规模验证的稳定推理服务,与 Hugging Face 生态深度集成。它支持广泛的模型架构和量化方案,是部署 Hugging Face 模型的官方推荐方案。
核心特性
1
生产验证
经过 Hugging Face 大规模服务验证,稳定可靠
2
模型生态
与 Hugging Face Hub 深度集成,支持数千种模型
3
量化支持
支持 bitsandbytes、GPTQ、AWQ 等量化方案
4
多架构支持
支持 decoder-only、encoder-decoder 等多种架构
5
流式生成
支持 Server-Sent Events 流式输出
6
分布式推理
支持张量并行和流水线并行
应用场景
Hugging Face 模型
部署来自 Hugging Face Hub 的模型
生产服务
构建生产级 LLM 推理服务
Inference Endpoints
Hugging Face 托管推理服务后端
聊天应用
支持多轮对话的聊天应用后端
适用人群与场景
HF 用户
使用 Hugging Face 生态的开发者
快速部署
希望快速部署模型的生产团队
模型研究者
需要部署多种模型的研究者
企业用户
需要稳定可靠服务的企业