导航菜单
切换主题
框架库/TensorRT-LLM
TensorRT-LLM

TensorRT-LLM

推理框架开源
10.0k Stars·Apache-2.0

TensorRT-LLM 是 NVIDIA 开发的高性能 LLM 推理优化库,专为 NVIDIA GPU 设计,性能极致。

框架介绍

TensorRT-LLM 是 NVIDIA 推出的 LLM 推理优化框架,基于 TensorRT 构建,充分利用 NVIDIA GPU 的硬件特性。它通过激进的内核融合、精度优化和硬件特定调优,实现业界领先的推理性能。 TensorRT-LLM 的设计目标是"极致性能"——在 NVIDIA GPU 上达到最高可能的吞吐量和最低延迟。虽然设置相对复杂,但对于大规模生产部署,其性能优势可以显著降低运营成本。

核心特性

1

内核融合

激进的算子融合,减少内存访问和内核启动开销

2

多精度支持

支持 FP32、FP16、BF16、FP8、INT8 等多种精度

3

张量并行

高效的多 GPU 张量并行实现

4

KV 缓存优化

优化的 KV 缓存管理和 PagedAttention 支持

5

模型编译

将模型编译为优化的引擎,一次编译多次运行

6

NVIDIA 优化

针对 NVIDIA GPU 架构深度优化

应用场景

大规模服务

需要极致吞吐量的生产 LLM 服务

延迟敏感应用

要求亚百毫秒延迟的实时应用

成本优化

通过最大化 GPU 利用率降低推理成本

企业部署

在 NVIDIA 硬件上的企业级 LLM 部署

适用人群与场景

NVIDIA 用户

使用 NVIDIA GPU 并追求极致性能的用户

大规模部署

运行大规模 LLM 服务的基础设施团队

成本敏感企业

需要优化 GPU 成本的企业用户

性能工程师

专注于推理性能优化的工程师

README