导航菜单
切换主题
框架库/OpenCompass
OpenCompass

OpenCompass

评估框架开源
4.0k Stars·Apache-2.0

OpenCompass 是上海人工智能实验室开发的 AI 模型评估平台,提供全面的模型能力评测和排行榜服务。

框架介绍

OpenCompass(司南)是由上海人工智能实验室开发的开源 AI 模型评估体系,专注于大语言模型和多模态模型的全面能力评测。它提供从评估工具到排行榜的完整解决方案。 OpenCompass 的核心优势在于其对中文场景的深度优化——包含丰富的中文评估基准,如 C-Eval、CMMLU、CMB 等,同时对中文模型有更好的支持。它还提供 OpenCompass 排行榜,实时展示主流模型的能力排名。

核心特性

1

中文优化

包含 C-Eval、CMMLU、CMB 等丰富的中文评估基准

2

全面覆盖

覆盖知识、推理、代码、数学、Agent 等多个能力维度

3

多模态支持

支持视觉语言模型、多模态大模型的评估

4

排行榜服务

提供实时更新的模型能力排行榜

5

分布式评估

支持多节点分布式评估,提升评估效率

6

工具链完整

从数据准备到结果分析的完整工具链

应用场景

中文模型评估

全面评估中文大语言模型的能力

模型排行榜

查看和对比主流模型的能力排名

定制评测

针对特定场景定制评估基准

多模态评测

评估视觉语言和多模态模型

适用人群与场景

中文模型开发者

开发中文大语言模型的团队

AI 实验室

进行模型评估研究的机构

企业用户

需要评估和选型中文模型的企业

研究人员

进行中文 NLP 研究的学者

README