导航菜单
切换主题
框架库/DeepEval
DeepEval

DeepEval

评估框架RAG框架开源
3.5k Stars·Apache-2.0

DeepEval 是一个开源的 LLM 评估框架,提供单元测试风格的评估方式,支持 RAG 评估和 CI/CD 集成。

框架介绍

DeepEval 是由 Confident AI 开发的开源 LLM 评估框架,采用单元测试的风格进行模型评估。它将评估集成到开发工作流中,支持类似 pytest 的测试用例编写方式。 DeepEval 的核心优势在于其开发者友好的设计——评估用例可以像单元测试一样编写和运行,支持 CI/CD 集成。它内置了多种评估指标,包括 RAG 专用指标(Faithfulness、Context Recall)和通用指标(毒性、偏见、幻觉检测)。

核心特性

1

单元测试风格

类似 pytest 的测试用例编写方式,开发者友好

2

RAG 指标

内置 Faithfulness、Context Recall、Answer Relevancy 等 RAG 指标

3

幻觉检测

自动检测模型输出中的幻觉内容

4

CI/CD 集成

支持 GitHub Actions、Jenkins 等 CI/CD 流程

5

自定义指标

支持创建自定义评估指标

6

数据集管理

支持评估数据集的版本管理和追踪

应用场景

自动化测试

将 LLM 评估集成到 CI/CD 流程

RAG 质量保证

评估 RAG 系统的检索和生成质量

回归测试

模型更新后自动验证输出质量

幻觉检测

识别和减少模型输出的幻觉内容

适用人群与场景

LLM 开发者

需要自动化评估的 LLM 应用开发者

DevOps 工程师

构建 AI 应用 CI/CD 流程的工程师

QA 工程师

负责 AI 应用质量保证的测试工程师

ML 团队

需要持续评估模型质量的团队

README