llamafile
推理框架开源22.0k Stars·Apache-2.0
llamafile 是 Mozilla 开发的单文件可执行 LLM 分发格式,让 LLM 可以像普通程序一样运行。
框架介绍
llamafile 是由 Mozilla 开发的创新 LLM 分发格式,将模型权重和推理引擎打包成单个可执行文件。用户只需下载一个文件,即可在任意平台上运行 LLM,无需安装任何依赖。 llamafile 的设计理念是"一次构建,到处运行"——基于 Cosmopolitan Libc 技术,同一个可执行文件可以在 Windows、macOS、Linux 上原生运行,无需虚拟化或容器化。
核心特性
1
单文件分发
模型和引擎打包成单个可执行文件
2
跨平台运行
同一文件在 Windows、macOS、Linux 上运行
3
零依赖
无需安装 CUDA、Python 等任何依赖
4
GPU 加速
自动检测并利用本地 GPU
5
嵌入式服务器
内置 HTTP 服务器,提供 API 接口
6
模型转换
支持将 Hugging Face 模型转换为 llamafile
应用场景
便捷分发
将 LLM 作为单一文件分发给用户
离线应用
创建完全离线工作的 LLM 应用
演示原型
快速分享可运行的 LLM 原型
教育用途
让学生轻松体验本地 LLM
适用人群与场景
产品分发者
需要将 LLM 打包分发的产品团队
教育工作者
希望学生轻松上手 LLM 的教育者
独立开发者
想要简化 LLM 分发的独立开发者
终端用户
希望简单运行 LLM 的普通用户