AgentBench

评估框架智能体框架开源

3.0k Stars·Apache-2.0

AgentBench 是清华大学开发的智能体能力评估基准，提供多维度的 Agent 能力测试场景，是评估大语言模型作为智能体能力的重要工具。

框架介绍

AgentBench 是由清华大学知识工程实验室（KEG）开发的大语言模型智能体能力评估基准。它专注于评估 LLM 作为智能体（Agent）在复杂任务中的规划和执行能力。 AgentBench 的核心优势在于其多维度的评估场景——涵盖操作系统操作、数据库查询、Web 浏览、数字游戏、知识图谱等多种真实世界任务。它通过标准化的接口评估模型的任务规划、工具使用、多轮推理等核心智能体能力。

核心特性

多维度场景

涵盖操作系统、数据库、Web、游戏等多种真实任务场景

能力评估

评估任务规划、工具使用、多轮对话等智能体核心能力

标准化接口

提供统一的评估接口，支持多种 LLM 后端

多轮交互

支持多轮对话和持续交互的评估模式

可扩展

支持添加自定义任务和评估场景

排行榜

提供公开的智能体能力排行榜

应用场景

Agent 能力评估

评估大语言模型作为智能体的综合能力

模型选型

为构建 Agent 应用选择合适的模型

能力研究

研究模型的规划和推理能力边界

能力对比

对比不同模型在 Agent 任务上的表现

适用人群与场景

Agent 开发者

构建智能体应用的开发者

AI 研究员

研究智能体能力的学术人员

模型评估团队

进行模型能力评估的团队

企业 AI 团队

评估模型用于 Agent 场景的企业团队