GTA:评估通用工具智能体的全新基准本文介绍了 GTA,一个用于评估通用工具智能体的全新基准,由来自上海交通大学与上海人工智能实验室的研究团队提出。GTA 的设计旨在于解决现有工具评测的局限性,例如评估问题形式固定、逻辑链简单、输入模态单一以及缺乏真实可执行的工具等,通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架...