导航菜单

切换主题

AI开发框架

AI框架与工具

主流AI开发框架、智能体框架、工作流工具，助力快速构建AI应用

122

框架总数

25

智能体框架

121

开源框架

73

热门项目

框架类型

🌐全部 🤖智能体 🔄工作流 📚RAG 🎓训练 ⚡推理 📊评估 🛠️其他

找到 18 个框架类型为 "inference"

llama.cpp

llama.cpp

llama.cpp 是一个纯 C/C++ 实现的 LLM 推理引擎，支持 CPU、CUDA、Metal、Vulkan 等多种后端，性能卓越。

纯 C/C++ 实现多后端支持量化支持

Ollama

Ollama

Ollama 是一个轻量级的本地 LLM 运行工具，让用户能够轻松下载、运行和管理大语言模型。提供 OpenAI 兼容的 API 接口。

一键运行OpenAI 兼容 API模型量化

LLaMA-Factory

LLaMA-Factory

训练推理开源

LLaMA-Factory 是一个统一的大语言模型微调框架，支持多种模型和训练方法，提供 Web UI 和命令行界面，同时支持 OpenAI 兼容的推理 API。

广泛模型支持多种训练方法Web UI 界面

llamafile

llamafile

llamafile 是 Mozilla 开发的单文件可执行 LLM 分发格式，让 LLM 可以像普通程序一样运行。

单文件分发跨平台运行零依赖

LMDeploy

LMDeploy

LMDeploy 是上海人工智能实验室开发的 LLM 部署工具包，支持模型压缩、高效推理和服务部署。

模型压缩TurboMind 引擎服务部署

LocalAI

LocalAI

LocalAI 是一个 OpenAI API 兼容的本地推理服务，支持多种后端和模型格式。

OpenAI 兼容多后端支持无 GPU 运行

MLC-LLM

MLC-LLM

MLC-LLM 是一个通用机器学习编译框架，支持在多种硬件平台上高效部署 LLM。

跨平台自动调优模型编译

SGLang

SGLang

SGLang 是一个结构化生成语言框架，提供高效的 LLM 推理和结构化输出能力。

RadixAttention结构化输出前缀缓存

TensorRT-LLM

TensorRT-LLM

TensorRT-LLM 是 NVIDIA 开发的高性能 LLM 推理优化库，专为 NVIDIA GPU 设计，性能极致。

内核融合多精度支持张量并行

TGI

TGI

Text Generation Inference (TGI) 是 Hugging Face 开发的生产级 LLM 推理服务器，用于支持 Hugging Chat。

生产验证模型生态量化支持

vLLM

vLLM

vLLM 是一个高性能 LLM 推理和服务框架，通过 PagedAttention 技术实现卓越的吞吐量和内存效率。

PagedAttention连续批处理OpenAI 兼容

ComfyUI

ComfyUI

工作流推理开源

ComfyUI 是一个强大且模块化的 Stable Diffusion 图形用户界面，它使用节点/图/流程图的设计理念，让用户能够设计和执行复杂的图像生成工作流

节点式工作流模型支持ControlNet

Goose

Goose

智能体推理开源

Goose 是一个开源的 AI 编程助手，能够自主完成代码编写、调试和重构任务

自主编程多语言支持代码调试

New API

New API

New API 是 OneAPI 的增强版本，提供更多功能和更好的性能

增强功能更多提供商性能优化

OneAPI

OneAPI

OneAPI 是一个 OpenAI API 管理和分发系统

统一接口负载均衡配额管理

OpenDevin

OpenDevin

智能体推理开源

OpenDevin 是一个开源的 AI 软件开发助手，能够自主完成代码编写、调试、测试等开发任务

自主开发多语言支持环境集成

Sora 2 API

Sora 2 API

Sora 2 API 是 OpenAI Sora 视频生成模型的 API 封装，提供便捷的视频生成接口

文本生成视频图像生成视频多种分辨率

Tinker API

Tinker API

Tinker API 是一个本地模型推理 API 服务，支持在本地部署和运行各种开源模型

本地推理OpenAI 兼容多模型支持