llama.cpp
推理框架开源85.0k Stars·MIT
llama.cpp 是一个纯 C/C++ 实现的 LLM 推理引擎,支持 CPU、CUDA、Metal、Vulkan 等多种后端,性能卓越。
框架介绍
llama.cpp 是一个高性能的 LLM 推理引擎,使用纯 C/C++ 实现,无外部依赖。它由 Georgi Gerganov 开发,是 GGML 项目的核心组件。 llama.cpp 的设计目标是"最小化设置,最大化性能"——通过高度优化的 CPU 实现和广泛的硬件后端支持,让 LLM 推理在各种设备上都能高效运行。它支持从手机到服务器全系列硬件,是本地 LLM 生态的基石。
核心特性
1
纯 C/C++ 实现
无外部依赖,编译简单,跨平台兼容性强
2
多后端支持
支持 CPU、CUDA、Metal、Vulkan、SYCL、ROCm 等多种硬件
3
量化支持
支持 2-bit 到 8-bit 多种量化格式,灵活权衡质量和性能
4
GGUF 格式
统一的模型格式,支持单文件分发和增量加载
5
服务器模式
内置 HTTP 服务器,提供 OpenAI 兼容 API
6
嵌入支持
支持生成文本嵌入向量,用于语义搜索等任务
应用场景
边缘设备推理
在手机、树莓派等资源受限设备上运行 LLM
高性能服务
作为生产推理服务的基础引擎
模型转换
将各种模型格式转换为 GGUF,统一分发
基准测试
评估不同硬件和量化方案的性能表现
适用人群与场景
系统开发者
需要深度集成 LLM 推理能力的系统开发者
硬件优化工程师
针对特定硬件优化推理性能的工程师
嵌入式开发者
在边缘和嵌入式设备上部署 LLM 的开发者
研究机构
需要灵活控制推理过程的研究机构