AI开发框架

AI框架与工具

主流AI开发框架、智能体框架、工作流工具，助力快速构建AI应用

122

框架总数

智能体框架

121

开源框架

热门项目

框架类型

🌐全部 🤖智能体 🔄工作流 📚RAG 🎓训练 ⚡推理 📊评估 🛠️其他

找到 10 个框架类型为 "evaluation"

AgentBench

评估智能体开源

AgentBench 是清华大学开发的智能体能力评估基准，提供多维度的 Agent 能力测试场景，是评估大语言模型作为智能体能力的重要工具。

多维度场景能力评估标准化接口

3.0k

GitHub

DeepEval

评估RAG开源

DeepEval 是一个开源的 LLM 评估框架，提供单元测试风格的评估方式，支持 RAG 评估和 CI/CD 集成。

单元测试风格RAG 指标幻觉检测

3.5k

GitHub

Giskard

评估开源

Giskard 是一个开源的 AI 模型测试和评估平台，专注于检测 AI 模型的安全漏洞、偏见和性能问题，支持 CI/CD 集成。

自动化测试安全检测偏见评估

3.5k

GitHub

HELM

评估开源

HELM (Holistic Evaluation of Language Models) 是斯坦福大学开发的综合语言模型评估框架，提供多维度、系统化的模型能力评估。

多维度评估基准透明模型覆盖

4.5k

GitHub

LM-Evaluation-Harness

评估开源

LM-Evaluation-Harness 是 EleutherAI 开发的语言模型评估框架，提供统一接口访问多种评估基准，是学术界广泛使用的评估工具。

基准丰富统一接口模型兼容

7.5k

GitHub

OpenCompass

评估开源

OpenCompass 是上海人工智能实验室开发的 AI 模型评估平台，提供全面的模型能力评测和排行榜服务。

中文优化全面覆盖多模态支持

4.0k

GitHub

Promptfoo

评估开源

Promptfoo 是一个开源的 LLM 提示词测试和评估工具，支持对抗性测试、红队测试和 CI/CD 集成，帮助构建安全的 LLM 应用。

红队测试对抗性测试多模型支持

5.5k

GitHub

RAGAS

评估RAG开源

RAGAS (Retrieval Augmented Generation Assessment) 是专门用于评估 RAG 系统的框架，提供 Faithfulness、Context Precision 等关键指标的自动化评估。

参考无关评估多维度指标框架集成

8.5k

GitHub

ToolBench

评估智能体开源

ToolBench 是用于评估大语言模型工具学习和工具使用能力的开源基准，提供大规模的工具调用数据集和评估框架。

大规模 API多领域覆盖完整数据集

4.0k

GitHub

TruLens

评估RAG开源

TruLens 是用于评估和追踪 LLM 应用的工具，提供 RAG 评估、反馈功能和可观测性支持，帮助构建可靠的 AI 应用。

反馈函数RAG 评估框架集成

2.5k

GitHub