MLC-LLM

推理框架开源

3.0k Stars·Apache-2.0

MLC-LLM 是一个通用机器学习编译框架，支持在多种硬件平台上高效部署 LLM。

框架介绍

MLC-LLM 是基于 Apache TVM Unity 构建的通用 LLM 部署框架，通过机器学习编译技术实现跨平台的高效推理。它支持从手机到服务器全系列硬件平台。 MLC-LLM 的核心理念是"编译优化"——通过自动调优和代码生成，为每种目标硬件生成最优化的推理代码，无需手动编写平台特定的内核。

核心特性

跨平台

支持 iOS、Android、Windows、Linux、macOS、WebGPU

自动调优

自动为每种硬件生成优化代码

模型编译

将模型编译为目标平台可执行格式

量化支持

支持多种量化方案，适应不同硬件

WebGPU 支持

支持在浏览器中运行 LLM

移动端优化

针对移动设备深度优化

应用场景

移动应用

在手机应用中嵌入 LLM 能力

Web 应用

在浏览器中运行 LLM，无需服务器

跨平台部署

一套代码，多平台部署

边缘计算

在边缘设备上运行 LLM

适用人群与场景

移动开发者

需要在移动端集成 LLM 的开发者

Web 开发者

希望在前端运行 LLM 的 Web 开发者

跨平台团队

需要支持多平台的开发团队

边缘计算者

在边缘设备部署 AI 的工程师