llama.cpp

推理框架开源

85.0k Stars·MIT

llama.cpp 是一个纯 C/C++ 实现的 LLM 推理引擎，支持 CPU、CUDA、Metal、Vulkan 等多种后端，性能卓越。

框架介绍

llama.cpp 是一个高性能的 LLM 推理引擎，使用纯 C/C++ 实现，无外部依赖。它由 Georgi Gerganov 开发，是 GGML 项目的核心组件。 llama.cpp 的设计目标是"最小化设置，最大化性能"——通过高度优化的 CPU 实现和广泛的硬件后端支持，让 LLM 推理在各种设备上都能高效运行。它支持从手机到服务器全系列硬件，是本地 LLM 生态的基石。

核心特性

纯 C/C++ 实现

无外部依赖，编译简单，跨平台兼容性强

多后端支持

支持 CPU、CUDA、Metal、Vulkan、SYCL、ROCm 等多种硬件

量化支持

支持 2-bit 到 8-bit 多种量化格式，灵活权衡质量和性能

GGUF 格式

统一的模型格式，支持单文件分发和增量加载

服务器模式

内置 HTTP 服务器，提供 OpenAI 兼容 API

嵌入支持

支持生成文本嵌入向量，用于语义搜索等任务

应用场景

边缘设备推理

在手机、树莓派等资源受限设备上运行 LLM

高性能服务

作为生产推理服务的基础引擎

模型转换

将各种模型格式转换为 GGUF，统一分发

基准测试

评估不同硬件和量化方案的性能表现

适用人群与场景

系统开发者

需要深度集成 LLM 推理能力的系统开发者

硬件优化工程师

针对特定硬件优化推理性能的工程师

嵌入式开发者

在边缘和嵌入式设备上部署 LLM 的开发者

研究机构

需要灵活控制推理过程的研究机构