llamafile

推理框架开源

22.0k Stars·Apache-2.0

llamafile 是 Mozilla 开发的单文件可执行 LLM 分发格式，让 LLM 可以像普通程序一样运行。

框架介绍

llamafile 是由 Mozilla 开发的创新 LLM 分发格式，将模型权重和推理引擎打包成单个可执行文件。用户只需下载一个文件，即可在任意平台上运行 LLM，无需安装任何依赖。 llamafile 的设计理念是"一次构建，到处运行"——基于 Cosmopolitan Libc 技术，同一个可执行文件可以在 Windows、macOS、Linux 上原生运行，无需虚拟化或容器化。

核心特性

单文件分发

模型和引擎打包成单个可执行文件

跨平台运行

同一文件在 Windows、macOS、Linux 上运行

零依赖

无需安装 CUDA、Python 等任何依赖

GPU 加速

自动检测并利用本地 GPU

嵌入式服务器

内置 HTTP 服务器，提供 API 接口

模型转换

支持将 Hugging Face 模型转换为 llamafile

应用场景

便捷分发

将 LLM 作为单一文件分发给用户

离线应用

创建完全离线工作的 LLM 应用

演示原型

快速分享可运行的 LLM 原型

教育用途

让学生轻松体验本地 LLM

适用人群与场景

产品分发者

需要将 LLM 打包分发的产品团队

教育工作者

希望学生轻松上手 LLM 的教育者

独立开发者

想要简化 LLM 分发的独立开发者

终端用户

希望简单运行 LLM 的普通用户