导航菜单
切换主题
框架库/llama.cpp
llama.cpp

llama.cpp

推理框架开源
85.0k Stars·MIT

llama.cpp 是一个纯 C/C++ 实现的 LLM 推理引擎,支持 CPU、CUDA、Metal、Vulkan 等多种后端,性能卓越。

框架介绍

llama.cpp 是一个高性能的 LLM 推理引擎,使用纯 C/C++ 实现,无外部依赖。它由 Georgi Gerganov 开发,是 GGML 项目的核心组件。 llama.cpp 的设计目标是"最小化设置,最大化性能"——通过高度优化的 CPU 实现和广泛的硬件后端支持,让 LLM 推理在各种设备上都能高效运行。它支持从手机到服务器全系列硬件,是本地 LLM 生态的基石。

核心特性

1

纯 C/C++ 实现

无外部依赖,编译简单,跨平台兼容性强

2

多后端支持

支持 CPU、CUDA、Metal、Vulkan、SYCL、ROCm 等多种硬件

3

量化支持

支持 2-bit 到 8-bit 多种量化格式,灵活权衡质量和性能

4

GGUF 格式

统一的模型格式,支持单文件分发和增量加载

5

服务器模式

内置 HTTP 服务器,提供 OpenAI 兼容 API

6

嵌入支持

支持生成文本嵌入向量,用于语义搜索等任务

应用场景

边缘设备推理

在手机、树莓派等资源受限设备上运行 LLM

高性能服务

作为生产推理服务的基础引擎

模型转换

将各种模型格式转换为 GGUF,统一分发

基准测试

评估不同硬件和量化方案的性能表现

适用人群与场景

系统开发者

需要深度集成 LLM 推理能力的系统开发者

硬件优化工程师

针对特定硬件优化推理性能的工程师

嵌入式开发者

在边缘和嵌入式设备上部署 LLM 的开发者

研究机构

需要灵活控制推理过程的研究机构

README