Ollama

推理框架开源

140.0k Stars·MIT

Ollama 是一个轻量级的本地 LLM 运行工具，让用户能够轻松下载、运行和管理大语言模型。提供 OpenAI 兼容的 API 接口。

框架介绍

Ollama 是一个轻量级的本地大语言模型运行工具，让开发者能够轻松下载、运行和管理各种开源 LLM。它提供简洁的命令行界面和 OpenAI 兼容的 REST API，支持 Llama、Qwen、Gemma、DeepSeek 等主流模型。 Ollama 的设计理念是"开箱即用"——通过一条命令即可完成模型的下载和运行，无需复杂配置。它自动处理模型量化、GPU 加速和内存管理，让本地运行大模型变得前所未有的简单。

核心特性

一键运行

通过 ollama run 命令即可下载并运行模型，无需手动配置

OpenAI 兼容 API

提供与 OpenAI API 完全兼容的 REST 接口，无缝切换

模型量化

自动应用 4-bit 量化，在保持质量的同时大幅减少内存占用

多平台支持

支持 macOS、Linux、Windows，以及 Docker 部署

GPU 加速

自动检测并利用 NVIDIA、AMD、Apple Silicon GPU

模型管理

支持创建自定义模型、导入 GGUF 格式模型

应用场景

本地开发测试

在本地快速测试和调试 LLM 应用，无需云服务费用

隐私敏感应用

数据完全本地处理，适合医疗、金融等隐私敏感场景

API 后端

作为 OpenAI API 的本地替代，降低 API 调用成本

边缘部署

在边缘设备上部署 LLM，实现离线智能应用

适用人群与场景

独立开发者

希望快速在本地测试 LLM 应用的开发者，无需配置复杂环境

隐私合规团队

需要数据本地处理的合规团队，满足数据不出域要求

AI 爱好者

想要在个人电脑上体验各种大模型的 AI 爱好者

初创公司

希望降低 LLM API 成本的初创公司，先本地验证再上云