OpenCompass

评估框架开源

4.0k Stars·Apache-2.0

OpenCompass 是上海人工智能实验室开发的 AI 模型评估平台，提供全面的模型能力评测和排行榜服务。

框架介绍

OpenCompass（司南）是由上海人工智能实验室开发的开源 AI 模型评估体系，专注于大语言模型和多模态模型的全面能力评测。它提供从评估工具到排行榜的完整解决方案。 OpenCompass 的核心优势在于其对中文场景的深度优化——包含丰富的中文评估基准，如 C-Eval、CMMLU、CMB 等，同时对中文模型有更好的支持。它还提供 OpenCompass 排行榜，实时展示主流模型的能力排名。

核心特性

中文优化

包含 C-Eval、CMMLU、CMB 等丰富的中文评估基准

全面覆盖

覆盖知识、推理、代码、数学、Agent 等多个能力维度

多模态支持

支持视觉语言模型、多模态大模型的评估

排行榜服务

提供实时更新的模型能力排行榜

分布式评估

支持多节点分布式评估，提升评估效率

工具链完整

从数据准备到结果分析的完整工具链

应用场景

中文模型评估

全面评估中文大语言模型的能力

模型排行榜

查看和对比主流模型的能力排名

定制评测

针对特定场景定制评估基准

多模态评测

评估视觉语言和多模态模型

适用人群与场景

中文模型开发者

开发中文大语言模型的团队

AI 实验室

进行模型评估研究的机构

企业用户

需要评估和选型中文模型的企业

研究人员

进行中文 NLP 研究的学者