导航菜单
切换主题
框架库/LM-Evaluation-Harness
LM-Evaluation-Harness

LM-Evaluation-Harness

评估框架开源
7.5k Stars·MIT

LM-Evaluation-Harness 是 EleutherAI 开发的语言模型评估框架,提供统一接口访问多种评估基准,是学术界广泛使用的评估工具。

框架介绍

LM-Evaluation-Harness 是由 EleutherAI 开发的开源语言模型评估框架,提供统一的 API 访问 200+ 个标准评估基准。它是目前学术界最广泛使用的模型评估工具之一。 LM-Evaluation-Harness 的核心优势在于其丰富的基准支持和灵活的架构——支持 MMLU、HellaSwag、WinoGrande、ARC、TruthfulQA 等主流基准,同时支持自定义任务。它与 Hugging Face Transformers、vLLM 等推理框架无缝集成。

核心特性

1

基准丰富

内置 200+ 个评估基准,涵盖知识、推理、阅读理解等领域

2

统一接口

提供统一的 API 访问不同格式的评估基准

3

模型兼容

支持 Hugging Face、vLLM、OpenAI API 等多种模型后端

4

自定义任务

支持添加自定义评估任务和数据集

5

多GPU支持

支持分布式评估,加速大规模评估任务

6

结果导出

支持导出 JSON、Markdown 等多种格式的评估报告

应用场景

学术评估

论文中模型能力的标准化评估

基准测试

快速运行多个基准测试获取综合评分

模型对比

比较不同模型在相同基准上的表现

开发测试

模型开发过程中的快速能力验证

适用人群与场景

ML 研究员

进行模型评估和对比的研究人员

模型开发者

开发过程中需要快速评估模型的工程师

开源贡献者

参与开源模型评估的社区成员

学生

学习模型评估方法的学生

README