多模态大模型的“测评革命”：LMMs-Eval框架横空出世

评测资讯
2024-08-23 13:11:25
转载来源: Network

多模态大模型的“测评革命”：LMMs-Eval框架横空出世随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如GPT-4o、Claude3.5等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL等开源领域模型也展现出了越来越接近闭源的性能

多模态 大模型的“测评革命”：LMMs-Eval 框架 横空出世

随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如GPT-4o、Claude3.5等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL等开源领域模型也展现出了越来越接近闭源的性能。在这个“亩产八万斤”， “10天一个SoTA”的时代，简单易用、标准透明、可复现的多模态评估框架变得越来越重要，而这并非易事。

为了解决以上问题，来自南洋理工大学LMMs-Lab的研究人员联合开源了LMMs-Eval，这是一个专为多模态大型模型设计的评估框架，为多模态模型（LMMs）的评测提供了一站式、高效的解决方案。

LMMs-Eval：多模态评估的“新基建”

多模态大模型的“测评革命”：LMMs-Eval框架横空出世

LMMs-Eval的诞生，标志着多模态模型评估进入了新的时代。它解决了现有评估框架的诸多痛点，为多模态模型的发展提供了强大的支持。

1. 标准化测评框架：

为了提供一个标准化的测评平台，LMMs-Eval包含了以下特性：

多模态大模型的“测评革命”：LMMs-Eval框架横空出世

统一接口： LMMs-Eval在文本测评框架lm-evaluation-harness的基础上进行了改进和扩展，通过定义模型、数据集和评估指标的统一接口，方便了使用者自行添加新的多模态模型和数据集。

一键式启动： LMMs-Eval在HuggingFace上托管了80多个（且数量不断增加）数据集，这些数据集精心从原始来源转换而来，包括所有变体、版本和分割。用户无需进行任何准备，只需一条命令，多个数据集和模型将被自动下载并测试，等待几分钟时间即可获得结果。

透明可复现： LMMs-Eval内置了统一的logging工具，模型回答的每一题以及正确与否都会被记录下来，保证了可复现性和透明性。同时也方便比较不同模型的优势与缺陷。

多模态大模型的“测评革命”：LMMs-Eval框架横空出世

LMMs-Eval的愿景是未来的多模态模型不再需要自行编写数据处理、推理以及提交代码。在当今多模态测试集高度集中的环境下，这种做法既不现实，测得的分数也难以与其他模型直接对比。通过接入LMMs-Eval，模型训练者可以将更多精力集中在模型本身的改进和优化上，而不是在评测和对齐结果上耗费时间。

2. 评测的“不可能三角”：

LMMs-Eval的最终目标是找到一种1. 覆盖广 2. 成本低 3. 零数据泄露的方法来评估LMMs。然而，即使有了LMMs-Eval，作者团队发现想同时做到这三点困难重重，甚至是不可能的。如下图所示，当他们将评估数据集扩展到50多个时，执行这些数据集的全面评估变得非常耗时。此外，这些基准在训练期间也容易受到污染的影响。

多模态大模型的“测评革命”：LMMs-Eval框架横空出世

[此处插入图片，展示评估数据集扩展后的时间成本和污染问题]

为此，LMMs-Eval提出了LMMs-Eval-Lite来兼顾广覆盖和低成本。他们也设计了LiveBench来做到低成本和零数据泄露。

3. LMMs-Eval-Lite: 广覆盖轻量级评估

多模态大模型的“测评革命”：LMMs-Eval框架横空出世

在评测大模型时，往往庞大的参数量和测试任务会使得评测任务的时间和成本急剧上升，因此大家往往会选择使用较小的数据集或是使用特定的数据集进行评测。然而，有限的评测往往会使得对于模型能力的理解有所缺失，为了同时兼顾评测的多样性和评测的成本，LMMs-Eval推出了LMMs-Eval-Lite

LMMs-Eval-Lite旨在构建一个简化的基准测试集，以在模型开发过程中提供有用且快速的信号，从而避免现在测试的臃肿问题。如果我们能够找到现有测试集的一个子集，在这上面的模型之间的绝对分数和相对排名与全集保持相似，那么我们可以认为修剪这些数据集是安全的。

为了找到数据集中的数据显著点，LMMs-Eval首先使用CLIP和BGE模型将多模态评测数据集转换为向量嵌入的形式并使用k-greedy聚类的方法找到了数据显著点。在测试中，这些规模较小的数据集仍然展现出与全集相似的评测能力。随后LMMs-Eval使用了相同的方法制作了涵盖更多数据集的Lite版本，这些数据集旨在帮助人们节省开发中的评测成本，以便快速判断模型性能。

多模态大模型的“测评革命”：LMMs-Eval框架横空出世

4. LiveBench: LMMs动态测试

传统基准侧重于使用固定问题和答案的静态评估。随着多模态研究的进展，开源模型在分数比较往往优于商用模型，如GPT-4V，但在实际用户体验中却有所不及。动态的、用户导向的ChatbotArenas和WildVision在模型评估中越来越受欢迎，但是它们需要收集成千上万的用户偏好，评估成本极高。

LiveBench的核心思想是在一个不断更新的数据集上评估模型的性能，以实现零污染且保持低成本。作者团队从网络上收集评估数据，并构建了一条pipeline，自动从新闻和社区论坛等网站收集最新的全球信息。为了确保信息的及时性和真实性，作者团队从包括CNN、BBC、日本朝日新闻和中国新华社等60多个新闻媒体，以及Reddit等论坛中选择来源。具体步骤如下：

多模态大模型的“测评革命”：LMMs-Eval框架横空出世