ToolBench

评估框架智能体框架开源

4.0k Stars·Apache-2.0

ToolBench 是用于评估大语言模型工具学习和工具使用能力的开源基准，提供大规模的工具调用数据集和评估框架。

框架介绍

ToolBench 是由 OpenBMB 团队开发的大语言模型工具使用能力评估基准。它专注于评估 LLM 学习和使用外部工具的能力，是智能体评估的重要组成部分。 ToolBench 的核心优势在于其大规模的工具数据集——包含来自 RapidAPI 的 16000+ 个真实 API，覆盖多个领域的工具调用场景。它提供完整的数据集、训练框架和评估工具，支持模型工具学习能力的全流程研究。

核心特性

大规模 API

包含 16000+ 个真实世界的 API 工具

多领域覆盖

覆盖天气、地图、金融、社交媒体等多个领域

完整数据集

提供工具学习训练和评估数据集

评估框架

标准化的工具使用能力评估流程

指令微调

支持工具使用能力的指令微调训练

开源模型

提供 ToolLLaMA 等工具增强模型

应用场景

工具学习评估

评估模型的工具学习和使用能力

Agent 开发

开发具备工具使用能力的智能体

指令微调

训练增强的工具使用模型

能力研究

研究模型的工具理解和调用能力

适用人群与场景

Agent 研究者

研究智能体工具使用能力的研究人员

模型开发者

训练工具增强模型的开发者

ML 工程师

构建工具调用系统的工程师

开源贡献者

参与工具学习研究的社区成员

ToolBench

框架介绍

核心特性

大规模 API

多领域覆盖

完整数据集

评估框架

指令微调

开源模型

应用场景

工具学习评估

Agent 开发

指令微调

能力研究

适用人群与场景

Agent 研究者

模型开发者

ML 工程师

开源贡献者

README