推理框架
大模型推理框架提供完整的模型加载、优化、服务和监控能力,主流框架包括TensorRT-LLM、vLLM、TGI等。框架对比:性能、功能、易用性;TensorRT-LLM:NVIDIA优化方案;TGI:Hugging Face推理服务;DeepSpeed-MII:微软推理框架;LMDeploy:国产推理方案。
学习资源(10 个)
📎
百度千帆 - 推理服务架构
百度千帆推理架构
进阶
📎
腾讯云TI - 推理框架对比
腾讯云框架对比
进阶
📎
InfoQ - 推理框架选型
InfoQ技术文章
进阶
📎
SegmentFault - 推理服务最佳实践
最佳实践指南
进阶
📎
开源中国 - 开源推理框架
开源框架汇总
入门
📎
掘金 - 推理框架性能测试
性能测试报告
进阶
📎
NVIDIA TensorRT-LLM Documentation
TensorRT-LLM官方文档
进阶
📎
NVIDIA Triton Inference Server
Triton官方页面
进阶
📎
Ray Serve Documentation
Ray Serve文档
进阶
📎
ONNX Runtime Documentation
ONNX Runtime文档
进阶