DeepEval
评估框架RAG框架开源3.5k Stars·Apache-2.0
DeepEval 是一个开源的 LLM 评估框架,提供单元测试风格的评估方式,支持 RAG 评估和 CI/CD 集成。
框架介绍
DeepEval 是由 Confident AI 开发的开源 LLM 评估框架,采用单元测试的风格进行模型评估。它将评估集成到开发工作流中,支持类似 pytest 的测试用例编写方式。 DeepEval 的核心优势在于其开发者友好的设计——评估用例可以像单元测试一样编写和运行,支持 CI/CD 集成。它内置了多种评估指标,包括 RAG 专用指标(Faithfulness、Context Recall)和通用指标(毒性、偏见、幻觉检测)。
核心特性
1
单元测试风格
类似 pytest 的测试用例编写方式,开发者友好
2
RAG 指标
内置 Faithfulness、Context Recall、Answer Relevancy 等 RAG 指标
3
幻觉检测
自动检测模型输出中的幻觉内容
4
CI/CD 集成
支持 GitHub Actions、Jenkins 等 CI/CD 流程
5
自定义指标
支持创建自定义评估指标
6
数据集管理
支持评估数据集的版本管理和追踪
应用场景
自动化测试
将 LLM 评估集成到 CI/CD 流程
RAG 质量保证
评估 RAG 系统的检索和生成质量
回归测试
模型更新后自动验证输出质量
幻觉检测
识别和减少模型输出的幻觉内容
适用人群与场景
LLM 开发者
需要自动化评估的 LLM 应用开发者
DevOps 工程师
构建 AI 应用 CI/CD 流程的工程师
QA 工程师
负责 AI 应用质量保证的测试工程师
ML 团队
需要持续评估模型质量的团队