LM-Evaluation-Harness
评估框架开源7.5k Stars·MIT
LM-Evaluation-Harness 是 EleutherAI 开发的语言模型评估框架,提供统一接口访问多种评估基准,是学术界广泛使用的评估工具。
框架介绍
LM-Evaluation-Harness 是由 EleutherAI 开发的开源语言模型评估框架,提供统一的 API 访问 200+ 个标准评估基准。它是目前学术界最广泛使用的模型评估工具之一。 LM-Evaluation-Harness 的核心优势在于其丰富的基准支持和灵活的架构——支持 MMLU、HellaSwag、WinoGrande、ARC、TruthfulQA 等主流基准,同时支持自定义任务。它与 Hugging Face Transformers、vLLM 等推理框架无缝集成。
核心特性
1
基准丰富
内置 200+ 个评估基准,涵盖知识、推理、阅读理解等领域
2
统一接口
提供统一的 API 访问不同格式的评估基准
3
模型兼容
支持 Hugging Face、vLLM、OpenAI API 等多种模型后端
4
自定义任务
支持添加自定义评估任务和数据集
5
多GPU支持
支持分布式评估,加速大规模评估任务
6
结果导出
支持导出 JSON、Markdown 等多种格式的评估报告
应用场景
学术评估
论文中模型能力的标准化评估
基准测试
快速运行多个基准测试获取综合评分
模型对比
比较不同模型在相同基准上的表现
开发测试
模型开发过程中的快速能力验证
适用人群与场景
ML 研究员
进行模型评估和对比的研究人员
模型开发者
开发过程中需要快速评估模型的工程师
开源贡献者
参与开源模型评估的社区成员
学生
学习模型评估方法的学生