框架库/LM-Evaluation-Harness

LM-Evaluation-Harness

评估框架开源

7.5k Stars·MIT

LM-Evaluation-Harness 是 EleutherAI 开发的语言模型评估框架，提供统一接口访问多种评估基准，是学术界广泛使用的评估工具。

框架介绍

LM-Evaluation-Harness 是由 EleutherAI 开发的开源语言模型评估框架，提供统一的 API 访问 200+ 个标准评估基准。它是目前学术界最广泛使用的模型评估工具之一。 LM-Evaluation-Harness 的核心优势在于其丰富的基准支持和灵活的架构——支持 MMLU、HellaSwag、WinoGrande、ARC、TruthfulQA 等主流基准，同时支持自定义任务。它与 Hugging Face Transformers、vLLM 等推理框架无缝集成。

核心特性

基准丰富

内置 200+ 个评估基准，涵盖知识、推理、阅读理解等领域

统一接口

提供统一的 API 访问不同格式的评估基准

模型兼容

支持 Hugging Face、vLLM、OpenAI API 等多种模型后端

自定义任务

支持添加自定义评估任务和数据集

多GPU支持

支持分布式评估，加速大规模评估任务

结果导出

支持导出 JSON、Markdown 等多种格式的评估报告

应用场景

学术评估

论文中模型能力的标准化评估

基准测试

快速运行多个基准测试获取综合评分

模型对比

比较不同模型在相同基准上的表现

开发测试

模型开发过程中的快速能力验证

适用人群与场景

ML 研究员

进行模型评估和对比的研究人员

模型开发者

开发过程中需要快速评估模型的工程师

开源贡献者

参与开源模型评估的社区成员

学生

学习模型评估方法的学生