指令调优数据集：数据评估与选择方法综述

评测资讯
2024-08-15 15:28:50
转载来源: Network

指令调优数据集：数据评估与选择方法综述随着大模型的快速发展，指令调优在提升模型性能和泛化能力方面发挥着至关重要的作用。然而，目前针对指令调优数据集的数据评估和选择方法尚未形成统一的体系，且缺乏全面深入的综述

指令 调优 数据集：数据评估与选择 方法 综述

随着大模型的快速发展，指令调优在提升模型性能和泛化能力方面发挥着至关重要的作用。然而，目前针对指令调优数据集的数据评估和选择方法尚未形成统一的体系，且缺乏全面深入的综述。为了填补这一空白，腾讯优图实验室发布了一篇超过万字的完整综述，梳理了400余篇相关文献。这项研究从质量、多样性和重要性三个主要方面对数据评估和选择方法进行了详细的分类和阐述，并关注了该领域的最新进展和趋势。

数据评估和选择方法：质量、多样性和重要性

指令调优数据集的质量、多样性和重要性对模型的最终性能至关重要。研究人员需要有效的方法评估和选择数据集，以确保模型能够学习到高质量、多样化和必要的知识。

1. 质量评估与选择

指令响应数据点的完整性、准确性和合理性是衡量数据集质量的关键指标。目前，常用的质量评估方法主要有以下四种：

手工设计指标：通过词汇、句法、语义相似性等方法评估数据质量，优点是指标计算明确，但无法检测不匹配的指令响应对。

基于模型的指标：利用可训练模型（如使用困惑度、多维评分评估器等）进行评估，结合多种训练感知指标（如不确定性、奖励分数等）的混合技术，这种方法在选择无偏高质量样本方面具有潜力。

指令调优数据集：数据评估与选择方法综述

GPT自动评分：调用OpenAI APIs 对指令调优数据集进行自动评分，这种方法与人类偏好高度对齐，收集少量GPT评分样本后微调开源LLM进行质量测量，可提高成本效率。

人工评价：在构建偏好对齐数据集时不可或缺，可用为模型训练提供高质量数据，但存在标注不一致问题，需制定详细指南，并辅以GPT评分等其他措施作为补充。

2. 多样性评估与选择

指令数据集的多样性是指个体多样性（如词汇和语义丰富度）和整体多样性（如数据分布），选择具有多样性的数据集可增强模型的泛化能力。评估数据集多样性的方法主要包括以下几种：

手工设计的指标：包括词汇多样性（如Type-token ratio、vocd-D、MTLD、HD-D等）和语义多样性（如通过k-NN图计算距离、利用BERT嵌入计算方差等）等多种指标。

基于模型的指标：通过熵相关方法（如vanilla entropy、Rényi entropy、Simpson's Index、VendiScore等）、Task2Vec 嵌入、开放标签的多样性标记等方式评估多样性。

基于几何特征的Coreset 采样：通过k-center greedy、herding 等方法选择最具信息和多样性的子集，代表整个数据集，使模型在子集上的训练性能接近在整个数据集上的训练性能，聚类技术在其中起到解释数据结构的作用。

指令调优数据集：数据评估与选择方法综述

基于Bi-level 的 Coreset 采样：将 Coreset 采样视为 Bi-level 优化问题，通过优化硬掩码或软权重来选择子集，涉及到模型内部参数的优化和数据选择的外部循环，一些方法通过引入验证集、梯度匹配和优化技术等来提高鲁棒性和效率。

3. 重要性评估与选择

重要性是指样本对模型训练的必要性，与模型任务相关，同时也关乎性能。易样本可能不需要额外调优，而难样本对模型训练至关重要。评估样本重要性的指标和方法主要有以下几种：

手工设计的指标：通过可读性指标（如语法、词汇、推理依赖等）评估文本难度，选择具有挑战性的样本以评估模型鲁棒性和构建有区分度的 NLP 基准。

基于模型的指标：包括不确定性（如 prompt uncertainty）、奖励分数（通过奖励模型判断样本对模型行为的必要性）和数据模型（如通过 Datamodel 预测数据点对模型行为的影响、DSIR 根据分布相似性估计重要性分数、MATES 连续选择最有效子集、Xie 等人通过重要性重采样选择类似目标分布的样本）等方式。