AgentBench
评估框架智能体框架开源3.0k Stars·Apache-2.0
AgentBench 是清华大学开发的智能体能力评估基准,提供多维度的 Agent 能力测试场景,是评估大语言模型作为智能体能力的重要工具。
框架介绍
AgentBench 是由清华大学知识工程实验室(KEG)开发的大语言模型智能体能力评估基准。它专注于评估 LLM 作为智能体(Agent)在复杂任务中的规划和执行能力。 AgentBench 的核心优势在于其多维度的评估场景——涵盖操作系统操作、数据库查询、Web 浏览、数字游戏、知识图谱等多种真实世界任务。它通过标准化的接口评估模型的任务规划、工具使用、多轮推理等核心智能体能力。
核心特性
1
多维度场景
涵盖操作系统、数据库、Web、游戏等多种真实任务场景
2
能力评估
评估任务规划、工具使用、多轮对话等智能体核心能力
3
标准化接口
提供统一的评估接口,支持多种 LLM 后端
4
多轮交互
支持多轮对话和持续交互的评估模式
5
可扩展
支持添加自定义任务和评估场景
6
排行榜
提供公开的智能体能力排行榜
应用场景
Agent 能力评估
评估大语言模型作为智能体的综合能力
模型选型
为构建 Agent 应用选择合适的模型
能力研究
研究模型的规划和推理能力边界
能力对比
对比不同模型在 Agent 任务上的表现
适用人群与场景
Agent 开发者
构建智能体应用的开发者
AI 研究员
研究智能体能力的学术人员
模型评估团队
进行模型能力评估的团队
企业 AI 团队
评估模型用于 Agent 场景的企业团队