DeepEval

评估框架RAG框架开源

3.5k Stars·Apache-2.0

DeepEval 是一个开源的 LLM 评估框架，提供单元测试风格的评估方式，支持 RAG 评估和 CI/CD 集成。

框架介绍

DeepEval 是由 Confident AI 开发的开源 LLM 评估框架，采用单元测试的风格进行模型评估。它将评估集成到开发工作流中，支持类似 pytest 的测试用例编写方式。 DeepEval 的核心优势在于其开发者友好的设计——评估用例可以像单元测试一样编写和运行，支持 CI/CD 集成。它内置了多种评估指标，包括 RAG 专用指标（Faithfulness、Context Recall）和通用指标（毒性、偏见、幻觉检测）。

核心特性

单元测试风格

类似 pytest 的测试用例编写方式，开发者友好

RAG 指标

内置 Faithfulness、Context Recall、Answer Relevancy 等 RAG 指标

幻觉检测

自动检测模型输出中的幻觉内容

CI/CD 集成

支持 GitHub Actions、Jenkins 等 CI/CD 流程

自定义指标

支持创建自定义评估指标

数据集管理

支持评估数据集的版本管理和追踪

应用场景

自动化测试

将 LLM 评估集成到 CI/CD 流程

RAG 质量保证

评估 RAG 系统的检索和生成质量

回归测试

模型更新后自动验证输出质量

幻觉检测

识别和减少模型输出的幻觉内容

适用人群与场景

LLM 开发者

需要自动化评估的 LLM 应用开发者

DevOps 工程师

构建 AI 应用 CI/CD 流程的工程师

QA 工程师

负责 AI 应用质量保证的测试工程师

ML 团队

需要持续评估模型质量的团队

DeepEval

框架介绍

核心特性

单元测试风格

RAG 指标

幻觉检测

CI/CD 集成

自定义指标

数据集管理

应用场景

自动化测试

RAG 质量保证

回归测试

幻觉检测

适用人群与场景

LLM 开发者

DevOps 工程师

QA 工程师

ML 团队

README