TensorRT-LLM

推理框架开源

10.0k Stars·Apache-2.0

TensorRT-LLM 是 NVIDIA 开发的高性能 LLM 推理优化库，专为 NVIDIA GPU 设计，性能极致。

框架介绍

TensorRT-LLM 是 NVIDIA 推出的 LLM 推理优化框架，基于 TensorRT 构建，充分利用 NVIDIA GPU 的硬件特性。它通过激进的内核融合、精度优化和硬件特定调优，实现业界领先的推理性能。 TensorRT-LLM 的设计目标是"极致性能"——在 NVIDIA GPU 上达到最高可能的吞吐量和最低延迟。虽然设置相对复杂，但对于大规模生产部署，其性能优势可以显著降低运营成本。

核心特性

内核融合

激进的算子融合，减少内存访问和内核启动开销

多精度支持

支持 FP32、FP16、BF16、FP8、INT8 等多种精度

张量并行

高效的多 GPU 张量并行实现

KV 缓存优化

优化的 KV 缓存管理和 PagedAttention 支持

模型编译

将模型编译为优化的引擎，一次编译多次运行

NVIDIA 优化

针对 NVIDIA GPU 架构深度优化

应用场景

大规模服务

需要极致吞吐量的生产 LLM 服务

延迟敏感应用

要求亚百毫秒延迟的实时应用

成本优化

通过最大化 GPU 利用率降低推理成本

企业部署

在 NVIDIA 硬件上的企业级 LLM 部署

适用人群与场景

NVIDIA 用户

使用 NVIDIA GPU 并追求极致性能的用户

大规模部署

运行大规模 LLM 服务的基础设施团队

成本敏感企业

需要优化 GPU 成本的企业用户

性能工程师

专注于推理性能优化的工程师