GTA:评估通用工具智能体的全新基准本文介绍了 GTA,一个用于评估通用工具智能体的全新基准,由来自上海交通大学与上海人工智能实验室的研究团队提出。GTA 的设计旨在于解决现有工具评测的局限性,例如评估问题形式固定、逻辑链简单、输入模态单一以及缺乏真实可执行的工具等,通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架
本文介绍了 GTA,一个用于评估通用工具智能体的全新基准,由来自上海交通大学与上海人工智能实验室的研究团队提出。GTA 的设计旨在于解决现有工具评测的局限性,例如评估问题形式固定、逻辑链简单、输入模态单一以及缺乏真实可执行的工具等,通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架。
现有工具评测的局限性
当前,通用工具智能体(general-purpose agents)的研究正处在蓬勃发展阶段,利用语言模型调用工具,是实现通用目标智能体的关键途径,对语言模型的工具调用能力提出了新的挑战。然而,现有的工具评测存在以下局限性,阻碍了真实世界场景下的评估:
GTA:一个全面、细粒度的评估框架
为了突破这些局限,GTA 基准提出了以下创新特性:
数据集构建
GTA 数据集的构建流程包含两个步骤:
1. 问题构建: 专家设计问题样例和标注文档,标注人员按照标注文档中的指示,进行头脑风暴,基于问题样例设计更多的问题,最终得到问题集。
2. 答案构建: 标注人员手动调用部署好的工具,确保每个问题都可以用提供的工具解决。然后,标注人员根据工具调用过程和工具返回结果,对每个问题的工具调用链进行标注。
为了让评测集更全面地覆盖真实场景,研究团队采用了多样化的扩展策略,包括场景多样化、工具组合多样化等。最终得到的评测集包含多图推理、图表分析、编程、视觉交互、网页浏览、数学、创意艺术等多种场景,确保了评估任务的全面性和多样性。
问题示例
最终共得到 229 个真实场景下的任务,所有问题都隐含工具和步骤,并且包含多模态上下文输入。这些任务基于现实世界场景,目标明确且易于理解,完成任务对人类有帮助,但对于 AI 助手来说较为复杂。JSON 格式的数据示例可以在 HuggingFace 上找到。
模型评测
GTA 在两种模式下评估语言模型:
评测结果
评测结果表明,目前的大语言模型在复杂真实场景任务的工具调用上仍存在明显的局限性。GPT-4 在 GTA 上仅能完成 46.59% 的任务,而大多数模型仅能完成不到 25% 的任务。研究团队发现,目前语言模型在完成 GTA 任务的关键瓶颈是参数传递准确率。
研究人员计算了各指标与最终结果准确率 AnsAcc 之间的皮尔森相关系数,发现 ArgAcc 的相关系数最高,说明参数传递是目前大多数模型的瓶颈。例如,Llama-3-70B-Chat 的 InstAcc,ToolAcc,SummAcc 都比 Qwen1.5-14B-Chat 高,但 ArgAcc 比 Qwen1.5-14B-Chat 低,导致最终结果准确率更低。
错因分析
为了进一步理解模型在参数传递上的失误原因,研究团队选择两个典型模型 GPT-4-1106-Preview 和 Llama-3-8B-Instruct,对它们进行了深入的错误原因分析。分析显示,GPT-4 与 Llama-3 的错误分布存在显著差异。
GTA 的构建为通用工具智能体的研究提供了重要的基准:
GTA 的出现为通用工具智能体的研究提供了新的方向,未来需要进一步探索如何提升模型在真实世界场景下的工具调用能力,解决参数传递准确率低等问题,从而推动通用目标智能体的进一步发展。