导航菜单
切换主题
框架库/ToolBench
ToolBench

ToolBench

评估框架智能体框架开源
4.0k Stars·Apache-2.0

ToolBench 是用于评估大语言模型工具学习和工具使用能力的开源基准,提供大规模的工具调用数据集和评估框架。

框架介绍

ToolBench 是由 OpenBMB 团队开发的大语言模型工具使用能力评估基准。它专注于评估 LLM 学习和使用外部工具的能力,是智能体评估的重要组成部分。 ToolBench 的核心优势在于其大规模的工具数据集——包含来自 RapidAPI 的 16000+ 个真实 API,覆盖多个领域的工具调用场景。它提供完整的数据集、训练框架和评估工具,支持模型工具学习能力的全流程研究。

核心特性

1

大规模 API

包含 16000+ 个真实世界的 API 工具

2

多领域覆盖

覆盖天气、地图、金融、社交媒体等多个领域

3

完整数据集

提供工具学习训练和评估数据集

4

评估框架

标准化的工具使用能力评估流程

5

指令微调

支持工具使用能力的指令微调训练

6

开源模型

提供 ToolLLaMA 等工具增强模型

应用场景

工具学习评估

评估模型的工具学习和使用能力

Agent 开发

开发具备工具使用能力的智能体

指令微调

训练增强的工具使用模型

能力研究

研究模型的工具理解和调用能力

适用人群与场景

Agent 研究者

研究智能体工具使用能力的研究人员

模型开发者

训练工具增强模型的开发者

ML 工程师

构建工具调用系统的工程师

开源贡献者

参与工具学习研究的社区成员

README