TGI

推理框架开源

10.0k Stars·Apache-2.0

Text Generation Inference (TGI) 是 Hugging Face 开发的生产级 LLM 推理服务器，用于支持 Hugging Chat。

框架介绍

TGI（Text Generation Inference）是 Hugging Face 开发的生产级 LLM 推理服务器，用于支持 Hugging Chat、Inference API 和 Inference Endpoints 等服务。 TGI 的设计目标是"生产就绪"——提供经过大规模验证的稳定推理服务，与 Hugging Face 生态深度集成。它支持广泛的模型架构和量化方案，是部署 Hugging Face 模型的官方推荐方案。

核心特性

生产验证

经过 Hugging Face 大规模服务验证，稳定可靠

模型生态

与 Hugging Face Hub 深度集成，支持数千种模型

量化支持

支持 bitsandbytes、GPTQ、AWQ 等量化方案

多架构支持

支持 decoder-only、encoder-decoder 等多种架构

流式生成

支持 Server-Sent Events 流式输出

分布式推理

支持张量并行和流水线并行

应用场景

Hugging Face 模型

部署来自 Hugging Face Hub 的模型

生产服务

构建生产级 LLM 推理服务

Inference Endpoints

Hugging Face 托管推理服务后端

聊天应用

支持多轮对话的聊天应用后端

适用人群与场景

HF 用户

使用 Hugging Face 生态的开发者

快速部署

希望快速部署模型的生产团队

模型研究者

需要部署多种模型的研究者

企业用户

需要稳定可靠服务的企业

TGI