位置: 首页 > 新闻 列表  >  评测资讯 >> 评测资讯

GTA:评估通用工具智能体的全新基准

GTA:评估通用工具智能体的全新基准本文介绍了 GTA,一个用于评估通用工具智能体的全新基准,由来自上海交通大学与上海人工智能实验室的研究团队提出。GTA 的设计旨在于解决现有工具评测的局限性,例如评估问题形式固定、逻辑链简单、输入模态单一以及缺乏真实可执行的工具等,通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架

GTA评估通用工具智能体的全新基准

本文介绍了 GTA,一个用于评估通用工具智能体的全新基准,由来自上海交通大学与上海人工智能实验室的研究团队提出。GTA 的设计旨在于解决现有工具评测的局限性,例如评估问题形式固定、逻辑链简单、输入模态单一以及缺乏真实可执行的工具等,通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架。

现有工具评测的局限性

当前,通用工具智能体(general-purpose agents)的研究正处在蓬勃发展阶段,利用语言模型调用工具,是实现通用目标智能体的关键途径,对语言模型的工具调用能力提出了新的挑战。然而,现有的工具评测存在以下局限性,阻碍了真实世界场景下的评估:

 GTA:评估通用工具智能体的全新基准

  • 评估问题通常是 AI 生成的,形式固定。 现有评测数据集中的问题往往是 AI 生成的,缺乏真实的用户需求,导致对模型的评估结果缺乏真实场景的代表性。
  • 逻辑链简单,不涉及复杂多步推理。 很多评测问题只涉及单一的工具调用,缺乏多步骤推理的复杂性,无法全面地评估模型的推理能力。
  • 输入是纯文本形式,模态单一。 现有工具评测的输入通常是纯文本,缺乏视觉、音频等多模态信息,导致对模型的评估结果过于局限。

 GTA:评估通用工具智能体的全新基准

  • 没有部署真实可执行的工具,无法端到端评测。 很多工具评测仅使用模拟的工具,无法实际执行任务,无法真实地评估模型的效果。

GTA:一个全面、细粒度的评估框架

为了突破这些局限,GTA 基准提出了以下创新特性:

 GTA:评估通用工具智能体的全新基准

  • 真实的用户问题: GTA 包含 229 个由人类撰写的问题,这些问题都具有简单的真实世界目标,但解决步骤和工具是隐含的,要求模型通过推理来选择合适的工具并规划操作步骤。
  • 真实部署的工具: GTA 提供工具部署平台,涵盖感知、操作、逻辑和创作四大类共 14 种工具,能够真实反映智能体实际的任务执行性能。
  • 多模态输入输出: 除了文本,GTA 还引入了空间场景、网页截图、表格、代码片段、手写/打印材料等多模态输入,要求模型处理这些丰富的上下文信息,并给出文本或图像输出。

 GTA:评估通用工具智能体的全新基准

数据集构建

GTA 数据集的构建流程包含两个步骤:

1. 问题构建: 专家设计问题样例和标注文档,标注人员按照标注文档中的指示,进行头脑风暴,基于问题样例设计更多的问题,最终得到问题集。

 GTA:评估通用工具智能体的全新基准

2. 答案构建: 标注人员手动调用部署好的工具,确保每个问题都可以用提供的工具解决。然后,标注人员根据工具调用过程和工具返回结果,对每个问题的工具调用链进行标注。

为了让评测集更全面地覆盖真实场景,研究团队采用了多样化的扩展策略,包括场景多样化、工具组合多样化等。最终得到的评测集包含多图推理、图表分析、编程、视觉交互、网页浏览、数学、创意艺术等多种场景,确保了评估任务的全面性和多样性。

问题示例

 GTA:评估通用工具智能体的全新基准

最终共得到 229 个真实场景下的任务,所有问题都隐含工具和步骤,并且包含多模态上下文输入。这些任务基于现实世界场景,目标明确且易于理解,完成任务对人类有帮助,但对于 AI 助手来说较为复杂。JSON 格式的数据示例可以在 HuggingFace 上找到。

模型评测

GTA 在两种模式下评估语言模型:

 GTA:评估通用工具智能体的全新基准

  • 逐步模式 (step-by-step mode): 该模式旨在细粒度地评估模型的工具使用能力。在该模式下,groundtruth 工具链的前 n 步作为 prompt,模型预测第 n+1 步的操作。在逐步模式下,设计四个指标:
  • InstAcc(指令遵循准确率)
  • ToolAcc(工具选择准确率)

 GTA:评估通用工具智能体的全新基准

  • ArgAcc(参数预测准确率)
  • 端到端模式 (end-to-end mode): 该模式旨在反映智能体实际执行任务时的表现。在这种模式下,模型会自主调用工具并解决问题,而无外部引导。使用 AnsAcc(最终答案准确率)来衡量执行结果的准确性。此外,还计算了工具选择方面的四个 F1 score:P、L、O、C,分别衡量感知 (Perception)、操作 (Operation)、逻辑 (Logic) 和创作 (Creativity) 类别的工具选择能力。

 GTA:评估通用工具智能体的全新基准

评测结果

评测结果表明,目前的大语言模型在复杂真实场景任务的工具调用上仍存在明显的局限性。GPT-4 在 GTA 上仅能完成 46.59% 的任务,而大多数模型仅能完成不到 25% 的任务。研究团队发现,目前语言模型在完成 GTA 任务的关键瓶颈是参数传递准确率。

研究人员计算了各指标与最终结果准确率 AnsAcc 之间的皮尔森相关系数,发现 ArgAcc 的相关系数最高,说明参数传递是目前大多数模型的瓶颈。例如,Llama-3-70B-Chat 的 InstAcc,ToolAcc,SummAcc 都比 Qwen1.5-14B-Chat 高,但 ArgAcc 比 Qwen1.5-14B-Chat 低,导致最终结果准确率更低。

 GTA:评估通用工具智能体的全新基准

错因分析

为了进一步理解模型在参数传递上的失误原因,研究团队选择两个典型模型 GPT-4-1106-Preview 和 Llama-3-8B-Instruct,对它们进行了深入的错误原因分析。分析显示,GPT-4 与 Llama-3 的错误分布存在显著差异。

  • GPT-4 模型倾向于生成“无动作”(NoAction)的响应,在 38.7% 的错误中,GPT-4 尝试与用户互动,错误地认为问题表述不够明确,要求提供额外信息。而在 50% 的错误中,模型仅生成内部思考过程,而未采取实际行动。
  • 而 Llama-3 的大部分错误来自于格式错误,特别是调用工具或生成最终答案时。45.4% 的错误是由于参数未能遵循合法的 JSON 格式。此外,在 16.5% 的情况下,Llama-3 试图同时调用多个工具,这并不被智能体系统支持。19.6% 的错误则源于生成冗余信息,导致参数解析不正确。

GTA 的构建为通用工具智能体的研究提供了重要的基准:

  • 构建了通用工具智能体的评测数据集。 问题由人类设计,是步骤隐含、工具隐含的,且立足于真实世界场景,并提供了多模态语境输入。每个问题都标注了可执行的工具链,以支持细粒度的工具使用能力评测。
  • 提供了包含感知、操作、逻辑、创作类别工具的评测平台。
  • 针对工具调用设计了细粒度的评测指标,揭示工具增强的语言模型在真实世界场景中的推理和规划能力。
  • 评测和分析了主流大语言模型。 从多个维度评测了 16 个大语言模型,反映了目前的语言模型在真实世界场景下的工具调用能力瓶颈,为通用目标智能体的发展路径提供建议。

GTA 的出现为通用工具智能体的研究提供了新的方向,未来需要进一步探索如何提升模型在真实世界场景下的工具调用能力,解决参数传递准确率低等问题,从而推动通用目标智能体的进一步发展。