简介
这是一系列关于人类反馈强化学习替代方案的博文,由 Argilla 和 MantisNLP 团队共同努力创建。请确保您已阅读本系列之前的文章,以充分理解上下文和讨论的进展,然后再继续阅读本文。滚动到页面底部以转到本系列的下一篇博文。
在之前的文章中,我们首先分析了进行监督微调 (SFT) 和人类反馈强化学习 (RLHF) 的努力,以及拥有高质量数据的重要性(第一篇 和 第二篇 博文)。然而,RLHF 很复杂且通常不稳定,因此我们研究了一种有前景的替代方案,即直接偏好优化 (DPO),以便在不需要强化学习的情况下使法学硕士与人类偏好保持一致(第三篇 博文)。尽管如此,DPO 并未解决所有缺点,例如,需要大量的偏好数据才能进行微调。为了解决这个问题,研究人员提出了新的方法。其中一些是人工智能反馈强化学习 (RLAIF) 或自博弈微调 (SPIN)(第四篇 和 第五篇 博文)。为了更好地对齐数据,我们还探讨了身份偏好优化 (IPO) 和卡尼曼-特沃斯基优化 (KTO) 的优势(第六篇 和 第七篇 博文)。ORPO 也被描述为简化对齐过程的方法(第八篇 博文)。在第九篇博文中,我们概述了迄今为止提出的方法的优点和缺点。上一篇博文讨论了 DOVE,这是一种偏好优化目标,旨在通过从指令和响应对的偏好中学习来对齐语言模型。
在这篇新博文中,我们将讨论 SimPO,即简单偏好优化,由 Meng 等人(2024 年) 提出。这种方法可以作为人类反馈强化学习和直接偏好优化的替代方案,我们在第三篇博文中介绍了后者。这种新方法旨在对齐奖励模型和生成模型,使其看起来更符合直觉。换句话说,这是一种更好地对齐我们的偏好、世界的某种状态以及法学硕士行为的方法。
DPO:使模型与人类偏好对齐,但与模型指标不一致
通常,一旦我们对大型语言模型应用了监督微调步骤 (SFT),我们就希望使该生成模型与人类偏好对齐。在大多数对齐方法中,例如最著名的直接偏好优化 DPO,我们设计了一个奖励模型。然而,此奖励模型不一定会考虑指导生成模型的指标。
让我们首先以尽可能简单的方式定义奖励模型和生成模型,无需复杂的数学。奖励模型是一个函数
现在,让我们将我们的生成模型定义为
换句话说,生成的可能性
从理论上讲,当讨论大型语言模型与人类偏好的一致性时,我们的目标是对齐奖励模型
我们使用奖励准确率来衡量这种等效性。指标越高,我们的偏好与法学硕士的生成能力之间的一致性就越好。例如,在 UltraFeedBack 数据集(一个多样化的偏好数据集)上,Mistral-8B-Base 模型在使用 DPO 训练时,其奖励准确率在训练集上达到 52%。这突出了奖励模型和生成目标之间的差异,因为几乎一半的偏好没有反映在生成模型的可能性中。
Mistral-Base 模型在 UltraFeedBack 训练数据集上的列联表。https://arxiv.org/pdf/2405.14734
SimPO 与 DPO:寻求更好的对齐和更快的计算
让我们更深入地研究 DPO 奖励模型和生成模型的形式,并突出 SimPO 中实施的差异,这些差异带来了更好的奖励准确率和其他下游优势。
生成模型:DPO 和 SimPO 相同
首先,让我们正式看一下生成模型,最终,这是用户每天在 chatGPT、Mixtral 或 Llama 背后使用的模型。生成模型包括一个策略
DPO 背景:奖励模型
DPO 论文将最终奖励模型定义为
其中
正如我们在上一节中看到的那样,这种 DPO 方法导致推理期间使用的生成模型与奖励模型之间不一致。此外,它使用了两个策略
SimPO 奖励模型:更简单的策略
为了克服这些问题,作者决定采用更简单的奖励函数
实际上,他们直接使用指导生成的似然性指标作为奖励模型。与之前的奖励函数相比,这种直接的公式在理论上有两个优点:首先,奖励与用于指导生成的指标直接成正比。其次,它消除了对参考模型的需求,从而提高了计算和内存效率。
SimPO 作者引入的最后一个区别解决了 Bradley-Terry 目标。这是我们在对齐过程中优化的函数,确保根据我们的偏好生成输出。他们在目标中添加了目标奖励边距。在数学上,目标设计如下
在 DPO 中,边距
SimPO 的改进:更好的对齐、更快的计算、使其更稳健
现在,让我们具体强调更简单的策略定义和目标边距是否带来了预期的结果。我们显然会关注使用 SimPO 而不是 DPO 训练的模型在知名基准测试中的总体结果。然而,首先,我们想验证奖励模型设计中做出的假设是否会带来预期的改进。
提高奖励准确率和降低内存
我们提到了 SimPO 奖励模型的两个主要预期贡献:提高奖励模型与生成模型似然性之间的一致性,以及使训练更快、更高效。论文中提供的结果非常直接
Mistral-Base 和 Mistral-Instruct 模型的奖励准确率和计算指标。https://arxiv.org/pdf/2405.14734
作者使用两种不同的开源模型对其进行了测试:Llama 3-8B 和 Mistral-8B,每种情况都考虑了基础模型和指令模型。他们报告了使用 DPO 奖励建模和 SimPO 奖励建模训练 Mistral 模型的指标。Mistral-Base 和 Mistral-Instruct 的奖励准确率均有所提高,这意味着生成模型和奖励模型之间的一致性更好。
此外,作者还研究了边距
关于计算,我们已经提到 SimPO 不需要参考模型。与标准 DPO 实施相比,它可以减少整体运行时间和每个 GPU 的峰值内存使用量。在 Llama3-Base 设置中,SimPO 将运行时间缩短了约 20%,GPU 内存使用量减少了约 10%。通过消除对参考模型进行前向传递的需求,作者显然提高了性能。
总而言之,奖励建模功能的更改显然达到了预期,在计算效率和与指导文本生成的指标更好的一致性方面提高了性能。
提高数据长度稳健性
本文提出的另一个有趣的结果是长度归一化对生成输出的影响。我们在 SimPO 奖励模型中没有提及它。让我们回顾一下 SimPO 奖励模型
我们注意到明确使用了
长度归一化对 SimPO 奖励模型的影响。https://arxiv.org/pdf/2405.14734
在上面的左图中,我们看到,当模型在没有长度归一化 (LN)(红色)的情况下训练时,奖励显然取决于陈述的长度(长度越高奖励越高!)。然而,当模型在有 LN(蓝色)的情况下训练时,奖励几乎总是正的,并且不取决于陈述长度。此外,与参考模型(尚未与偏好对齐)相比,与 SimPO 对齐时奖励更高。
在其他两个图中,我们查看了当模型在有和没有长度归一化的情况下对齐时,对于给定提示,生成输出的长度与其可能性之间的 Spearman 相关性。在没有 LN 的情况下,相关性要高得多(0.82!这意味着生成长度越高,陈述可能性越高),而在有 LN 的情况下,相关性为 0.34。这表明归一化对于使对齐的模型更稳健而不仅仅是生成长答案至关重要。作者还检查了 DPO 对齐模型的此相关性,SimPO 的相关系数低于 DPO (0.59)。这意味着 SimPO 看起来可以更稳健地处理输出长度。
除了预期的输出外,我们还观察到奖励模型的更简单设计还提高了生成输出长度方面的稳健性。现在我们已经确认了这些重要结果,现在让我们探索总体结果,看看这些改进是否也增强了法学硕士的整体能力。
SimPO 与 DPO:更强大的结果
我们已经看到,作者的结果与他们对更好的一致性、更快的计算和更强的稳健性的期望相符。然而,我们需要解决最重要的问题:SimPO 是否也提高了法学硕士的能力?
基准测试结果
我们已经介绍了作者用于比较其实施的模型:Llama 3-8B 和 Mistral-8B,每种情况都考虑了基础模型和指令模型。他们主要使用三个最流行的开放式指令遵循基准测试来评估模型:MT-Bench、AlpacaEval 2 和 Arena-Hard v0.1。这些基准测试测试模型的对话技巧,并被社区广泛使用。
SimPO 与 DPO 在 AlpacaEval2 和 Arena-Hard 基准测试上的比较。https://arxiv.org/pdf/2405.14734
当将 SimPO 与 DPO 进行比较时,结果非常直接。对于每种模型类型(Llama-3 或 Mistral、基础模型或指令模型),SimPO 都优于现有的偏好 DPO。值得注意的是,在 AlpacaEval 2 LC 胜率方面,SimPO 的性能比最佳基线高出 3.8 到 6.4 个百分点,在 Arena-Hard 方面,在各种设置下,SimPO 的性能比最佳基线高出 1.2 到 7.5 个百分点。这些一致且显着的改进突出了 SimPO 与 DPO 相比的稳健性和有效性。
最后一个值得一提的结果是 SimPO 与其他离线偏好优化过程之间的比较(其中大多数在我们的先前博文中讨论过)。
我们在粗体中看到,SimPO 奖励模型通常会产生更好的结果。但更重要的是,即使与其他策略相比,其他策略通常会提高结果,但在此处,DPO 凭经验优于其他策略,除了 R-DPO。
总而言之,在法学硕士能力最重要的方面,SimPO 策略在不同的基准测试中也优于 DPO 及其主要变体,突出了作者取得的巨大成果。
关于本文的最后一个想法来自作者强调的局限性。我们认为最重要和最有趣的是:这种过程成功的理论非常不确定。虽然 SimPO 已经显示出令人印象深刻的结果并且在直觉上很有意义,但奖励模型领域缺乏理论分析来充分理解为什么它如此有效。我们只能感谢作者的这种认可和透明度。
关于对这种成功的缺乏理解的一个具体论点是超参数设置(目标奖励边距),它需要手动调整,进一步的研究应该研究如何更好地理论理解这些模型是如何运作的。最后,此策略尚未针对安全性和诚实性方面进行测试,因此在实际应用中部署此类系统之前,应需要测试此类结果。
结论
简而言之,SimPO 专注于简化和使奖励模型的设计更直观,以便更好地将偏好与指导法学硕士生成的指标对齐。首先,该实施提高了法学硕士在各种基准测试中的能力。更重要的是,这些指标的提高伴随着与我们偏好更好的一致性、更快的计算以及关于生成输出长度的更大稳健性。这是一项很有前景的工作,应鼓励研究人员更好地理解此类过程的理论框架。
想了解更多?
这是专门介绍 RLHF 替代方案的系列博文的第八篇。第一篇、第二篇、第三篇、第四篇、第五篇、第六篇、第七篇、第八篇 和 第十篇 博文也可以在我们的网站上找到。请查阅概述以了解迄今为止提出的方法的优点和缺点。
Argilla 和 Mantis NLP 团队很乐意帮助您解决关于使用监督微调、强化学习或直接偏好优化训练法学硕士的准备步骤的任何问题。
Argilla 的法学硕士数据平台目前支持所有数据管理步骤,Mantis NLP 为整个过程提供端到端支持。