OpenCompass
评估框架开源4.0k Stars·Apache-2.0
OpenCompass 是上海人工智能实验室开发的 AI 模型评估平台,提供全面的模型能力评测和排行榜服务。
框架介绍
OpenCompass(司南)是由上海人工智能实验室开发的开源 AI 模型评估体系,专注于大语言模型和多模态模型的全面能力评测。它提供从评估工具到排行榜的完整解决方案。 OpenCompass 的核心优势在于其对中文场景的深度优化——包含丰富的中文评估基准,如 C-Eval、CMMLU、CMB 等,同时对中文模型有更好的支持。它还提供 OpenCompass 排行榜,实时展示主流模型的能力排名。
核心特性
1
中文优化
包含 C-Eval、CMMLU、CMB 等丰富的中文评估基准
2
全面覆盖
覆盖知识、推理、代码、数学、Agent 等多个能力维度
3
多模态支持
支持视觉语言模型、多模态大模型的评估
4
排行榜服务
提供实时更新的模型能力排行榜
5
分布式评估
支持多节点分布式评估,提升评估效率
6
工具链完整
从数据准备到结果分析的完整工具链
应用场景
中文模型评估
全面评估中文大语言模型的能力
模型排行榜
查看和对比主流模型的能力排名
定制评测
针对特定场景定制评估基准
多模态评测
评估视觉语言和多模态模型
适用人群与场景
中文模型开发者
开发中文大语言模型的团队
AI 实验室
进行模型评估研究的机构
企业用户
需要评估和选型中文模型的企业
研究人员
进行中文 NLP 研究的学者