简介
这是关于人类反馈强化学习替代方案的系列博文,由 Argilla 和 MantisNLP 团队联合创作。请确保您已阅读本系列之前的文章,以便在继续阅读本文之前充分理解讨论的背景和进展。滚动到页面底部可转到本系列的下一篇博文。
在之前的文章中,我们首先分析了执行监督式微调 (SFT) 和人类反馈强化学习 (RLHF) 的工作,以及拥有高质量数据的重要性(第一篇 和 第二篇 博文)。然而,RLHF 复杂且通常不稳定,因此我们研究了一种有前景的替代方案,即直接偏好优化 (DPO),以便在不需要强化学习的情况下使大型语言模型与人类偏好对齐(第三篇 博文)。尽管如此,DPO 并未解决所有缺点,例如,需要大量偏好数据才能进行微调。为了解决这个问题,研究人员提出了新的方法。其中一些方法是人工智能反馈强化学习 (RLAIF) 或自我对弈微调 (SPIN)(第四篇 和 第五篇 博文)。
在本文中,我们将研究身份偏好优化 (IPO),其旨在增强数据对齐并减轻过拟合。
身份偏好优化 (IPO)
为了寻求更简单、更高效的算法来更好地将大型语言模型与数据对齐,DeepMind 团队推出了“理解从人类偏好中学习的通用理论范式”,其中包含一个新的通用目标和一个新的算法,将在本文中进行解释。
如果您希望深入了解实践方面,IPO 功能已集成到 Hugging Face 的 TRL 库中的 DPO 训练器 中。但是,有一个小小的注意事项:由于 差异,您必须使用 TRL 的主分支才能访问此功能。
每项研究都始于某个地方,那么是什么激发了导致这项研究的好奇心呢?鉴于 RLHF 的问题,研究人员旨在解决与最常见的 RLHF 方法相关的挑战,并提供新的见解。
一方面,他们注意到存在一个假设,即逐点奖励可以替代成对偏好。当使用这些方法时,应用 Bradley-Terry 模型将成对偏好转换为 Elo 分数(或 logit 偏好)。本质上,此模型通过分析成对比较来确定每个项目的相对强度。在这种情况下,其中 A 优于 B,B 优于 C(A > B 且 B > C),模型将为 A、B 和 C 分配单独的分数。为此,它会计算以观察到的方式选择每对的似然性(例如,A 优于 B 的似然性),并最大化它以调整强度值(分数),以便它们反映所有观察到的比较(A > B 且 B > C)。这样,我们将获得每个项目的唯一分数,例如,A=0.6、B=0.3 和 C=0.1。这些将是逐点分数。
正如我们所见,该方法基于两个关键原则:传递性,这意味着如果 A 优于 B,且 B 优于 C,则 A 应优于 C;以及可加性,其中分数差异表示偏好强度。然而,这种最大化可能会导致与现实世界选择不完全匹配的非逻辑或意外决策。一个人可能偏爱 A,而另一个人可能偏爱 C,这突显了数学模型与人类行为之间的差距。
左侧是逐点示例,其中每个文档在与查询配对时都被视为独立的实例。右侧是成对示例,其中文档成对比较以确定顺序。来源:https://towardsdatascience.com/what-is-learning-to-rank-a-beginners-guide-to-learning-to-rank-methods-23bbb99ef38c
相反,奖励模型通常基于这些逐点奖励进行训练,从而实现泛化。尽管 DPO 通过在优化期间针对实际偏好的 logit 转换版本来摆脱此奖励模型,但仍然延续了之前的想法。因此,主要问题出现的原因是逐点奖励系统不成比例地奖励偏好概率的微小增加,从而导致过拟合和弱正则化问题。这使模型更难以泛化并准确反映真实偏好。我们将在本文后面更深入地探讨这个问题。
RLHF 和 DPO 中的偏好优化示例。请记住,DPO 不使用显式奖励模型。来源:https://arxiv.org/pdf/2305.18290.pdf
为了更好地理解这些方法的工作原理以及如何克服其弱点,他们引入了两个新想法:ΨPO 和 IPO。这里的主要创新是在保持成对比较方面的前提下消除奖励模型,旨在通过调整训练过程来解决模型的局限性。
关键点:ΨPO 和 IPO
一方面,研究人员发现,RLHF 和 DPO 目标可以统一为更通用的目标 ΨPO,这为偏好学习提供了更广泛的理论基础。通过他们对 ΨPO 的分析,他们指出了诸如弱正则化和潜在过拟合等问题。
通常,RLHF 和 DPO 使用 KL 正则化 来确保大型语言模型在每个训练步骤中逐步改进,从而避免与原始的、未对齐的模型发生重大偏差。然而,他们注意到一个问题:随着模型的预测变得更具确定性(即可预测),这种形式的正则化变得不太有效。理想情况下,正则化应区分小幅增加和大幅增加,以便它鼓励模型专注于在不确定性更大的地方进行重大改进,而不是过度微调模型已经确信的地方。然而,在当前情况下,正则化并没有充分区分这一点,从而导致学习过程不够细致。
假设这就像一位导师教孩子阅读。一开始,老师会进行小幅纠正(KL 正则化),以确保学生在进步的同时不会养成坏习惯。然而,随着他的技能提高,他的阅读变得更具确定性,如果指导相同,那就好比无论孩子是混淆了“cat”和“cap”还是将“butterfly”与“ball”混淆,都给予相同程度的纠正。
另一方面,与可能使用提前停止等技巧进行正则化的传统方法不同,他们引入了 ΨPO 的一个特例:身份-PO。IPO 甚至在不依赖奖励模型的情况下优化偏好,并且在偏好是确定性的情况下,确保 KL 正则化的有效性。
通过用恒等函数替换 logit 函数,IPO 直接优化偏好(从成对偏好而不是 logit 偏好中学习)。它将首选操作与非首选操作(相对于参考策略)进行比较,并结合一个术语来有效地管理正则化。这种正则化机制使 IPO 能够在适应训练数据和保持泛化能力之间取得平衡,这对于模型在未见数据上的性能至关重要。
按照之前的例子,如果孩子最初喜欢阅读简单词而不是复杂词,通过使用恒等函数,奖励将是成比例且直接的(他们将获得贴纸而不是数字分数)。指南(参考策略)将指示此偏好,但正则化项将奖励他阅读简单词,并鼓励他偶尔攻克复杂词。
有关更理论的方法和数学证明,请查看原始论文。
IPO 与 DPO 的比较
为了证明 IPO 的效率,他们还将 IPO 与具有不同 tau (τ) 值的 KL 正则化的 DPO 进行了比较。τ 参数有助于调整正则化项的强度:较高的 τ 值鼓励模型进行更多探索,而较低的 τ 值则促进更多对已学习偏好的利用。
IPO 和 DPO 的动作概率学习曲线比较,针对 D1 = (A, B)、(B, C)、(A, C),这表示总排序。来源:https://arxiv.org/pdf/2310.12036.pdf。
给定一个示例数据集,其中 1 优于 2 和 3,上图显示了 DPO 和 IPO 的学习曲线。在这两种情况下,偏好顺序都得到了正确确定。但是,我们可以观察到,对于不同的正则化参数,DPO 保持不变,这验证了本文的假设之一。此外,DPO 显示出过拟合,因为它们的曲线始终收敛于 2 和 3,而首选值 1 几乎达到概率 1。相比之下,应用不同的 τ 值时,IPO 的曲线存在明显的差异,并且三个样本是如何区分和排序的。
Hugging Face 团队还在 MT 基准测试中比较了 DPO、KTO 和 IPO。根据模型,此处结果各不相同,虽然使用 Zephyr 模型时,结果受益于 IPO,但相同的结论并未在 OpenHermes 模型上重现。
有关执行的实验的更多信息,请查看以下帖子。
Zephyr 模型(左侧)和 OpenHermes 模型(右侧)在不同 β (=tau) 时的 MT-Bench 分数。来源:https://hugging-face.cn/blog/pref-tuning
实施 IPO 的结果尚不确定,表明有必要进行更多实验。尽管有全面的理论分析支持 IPO 的有效性,但仍呼吁提供更多实证证据,尤其是在复杂和现实世界的场景中,以加强对 IPO 有效性的论证。
还应注意的是,针对支持 IPO 的主张,DPO 论文的作者 Eric Mitchell 也发布了一份 一页纸文档。他在其中倡导 DPO,提出了一些修改建议以缓解正则化问题,并解决了 IPO 讨论中的理论问题。
结论
总之,IPO 论文通过 ΨPO 提供了一个强有力的理论框架,解释了 RLHF 和 DPO 的基础,并突出了这些方法的主要缺点。此外,为了避免过拟合和弱正则化,引入了一种新的包含 IPO 的解决方案,该方案添加了一个正则化项。尽管存在关于实证测试有限和结果不一的批评,但 IPO 的方法仍然值得关注。它应被视为该领域的新方法之一,为推进基于偏好的学习模型提供了宝贵的视角。
想了解更多?
这是致力于 RLHF 替代方案的系列博文的第六篇。本系列博文的第一篇、第二篇、第三篇、第四篇 和 第五篇 博文也可以在我们的网站上找到。
Argilla 和 Mantis NLP 团队很乐意解答您可能对使用监督式微调、强化学习或直接偏好优化训练大型语言模型的准备步骤有任何疑问。
Argilla 的大型语言模型数据平台目前支持所有数据整理步骤,Mantis NLP 为整个过程提供端到端支持。