指令调优数据集:数据评估与选择方法综述随着大模型的快速发展,指令调优在提升模型性能和泛化能力方面发挥着至关重要的作用。然而,目前针对指令调优数据集的数据评估和选择方法尚未形成统一的体系,且缺乏全面深入的综述
随着大模型的快速发展,指令调优在提升模型性能和泛化能力方面发挥着至关重要的作用。然而,目前针对指令调优数据集的数据评估和选择方法尚未形成统一的体系,且缺乏全面深入的综述。为了填补这一空白,腾讯优图实验室发布了一篇超过万字的完整综述,梳理了400余篇相关文献。这项研究从质量、多样性和重要性三个主要方面对数据评估和选择方法进行了详细的分类和阐述,并关注了该领域的最新进展和趋势。
数据评估和选择方法:质量、多样性和重要性
指令调优数据集的质量、多样性和重要性对模型的最终性能至关重要。研究人员需要有效的方法评估和选择数据集,以确保模型能够学习到高质量、多样化和必要的知识。
1. 质量评估与选择
指令响应数据点的完整性、准确性和合理性是衡量数据集质量的关键指标。目前,常用的质量评估方法主要有以下四种:
- 手工设计指标: 通过词汇、句法、语义相似性等方法评估数据质量,优点是指标计算明确,但无法检测不匹配的指令响应对。
- 基于模型的指标: 利用可训练模型(如使用困惑度、多维评分评估器等)进行评估,结合多种训练感知指标(如不确定性、奖励分数等)的混合技术,这种方法在选择无偏高质量样本方面具有潜力。
- GPT自动评分: 调用OpenAI APIs 对指令调优数据集进行自动评分,这种方法与人类偏好高度对齐,收集少量GPT评分样本后微调开源LLM进行质量测量,可提高成本效率。
- 人工评价: 在构建偏好对齐数据集时不可或缺,可用为模型训练提供高质量数据,但存在标注不一致问题,需制定详细指南,并辅以GPT评分等其他措施作为补充。
2. 多样性评估与选择
指令数据集的多样性是指个体多样性(如词汇和语义丰富度)和整体多样性(如数据分布),选择具有多样性的数据集可增强模型的泛化能力。评估数据集多样性的方法主要包括以下几种:
- 手工设计的指标: 包括词汇多样性(如Type-token ratio、vocd-D、MTLD、HD-D等)和语义多样性(如通过k-NN图计算距离、利用BERT嵌入计算方差等)等多种指标。
- 基于模型的指标: 通过熵相关方法(如vanilla entropy、Rényi entropy、Simpson's Index、VendiScore等)、Task2Vec 嵌入、开放标签的多样性标记等方式评估多样性。
- 基于几何特征的Coreset 采样: 通过k-center greedy、herding 等方法选择最具信息和多样性的子集,代表整个数据集,使模型在子集上的训练性能接近在整个数据集上的训练性能,聚类技术在其中起到解释数据结构的作用。
- 基于Bi-level 的 Coreset 采样: 将 Coreset 采样视为 Bi-level 优化问题,通过优化硬掩码或软权重来选择子集,涉及到模型内部参数的优化和数据选择的外部循环,一些方法通过引入验证集、梯度匹配和优化技术等来提高鲁棒性和效率。
3. 重要性评估与选择
重要性是指样本对模型训练的必要性,与模型任务相关,同时也关乎性能。易样本可能不需要额外调优,而难样本对模型训练至关重要。评估样本重要性的指标和方法主要有以下几种:
- 手工设计的指标: 通过可读性指标(如语法、词汇、推理依赖等)评估文本难度,选择具有挑战性的样本以评估模型鲁棒性和构建有区分度的 NLP 基准。
- 基于模型的指标: 包括不确定性(如 prompt uncertainty)、奖励分数(通过奖励模型判断样本对模型行为的必要性)和数据模型(如通过 Datamodel 预测数据点对模型行为的影响、DSIR 根据分布相似性估计重要性分数、MATES 连续选择最有效子集、Xie 等人通过重要性重采样选择类似目标分布的样本)等方式。
- 基于 Loss 和 Error 的 Coreset 采样: 通过记录训练中样本的错误(如 forgetting score、memorization、influence 等)来估计重要性,选择对损失贡献大或导致性能差的样本,一些研究通过迭代近似和小代理模型加速计算边际效应。
- 基于梯度的 Coreset 采样: 利用梯度直接影响语言模型优化的特性,通过梯度匹配(如逼近整个数据集的梯度)和梯度基于的影响(如通过上加权梯度乘法测量样本对模型参数的影响)来选择数据,一些技术(如低秩梯度相似性搜索、移动样本近似等)用于加速计算和提高效率,同时需要考虑近似的精度和效率。
现有挑战和未来方向
目前,数据选择方法的有效性与模型在基准测试上的性能报告之间存在差距。原因包括评估损失与基准性能相关性不强、测试集污染等。未来需要构建专门的基准来评估指令调优模型和所选数据点,并解耦数据选择和模型评估以排除数据污染的影响。
此外,目前还没有统一标准来区分“好”“坏”指令,现有质量测量方法具有特定任务导向性且缺乏解释性。未来需要更统一、通用的定义和提高选择管道的可解释性,以适应不同下游任务的需求。
随着数据集的扩大,确定最佳选择比例也变得困难。建议通过质量测量方案、强调多样性和考虑与预训练数据的相似性来确定最佳选择比例,并优化数据评估和选择的可扩展性pipeline。
除了数据集,大模型本身的规模也在增大,数据评估和选择的成本效率降低。需要发展高效的代理模型,同时重新思考传统机器学习技术,如优化技巧和降维方法。
总之,指令调优数据集的数据评估和选择方法是一个重要的研究方向,需要不断探索新的方法和技术,以提高模型的性能和泛化能力,推动人工智能技术的进一步发展。