简介
这是一系列关于人类反馈强化学习替代方案的博客文章。请确保您已阅读本系列的前第一篇、第二篇、第三篇、第四篇、第五篇和第六篇条目,以充分理解上下文和讨论的进展,然后再继续阅读本节内容。滚动到页面底部可转到本系列的下一篇博客文章。
在之前的文章中,我们首先分析了执行监督式微调 (SFT) 和人类反馈强化学习 (RLHF) 的努力,以及拥有高质量数据的重要性(第一篇和第二篇博客文章)。然而,RLHF 复杂且通常不稳定,因此引入了直接偏好优化 (DPO),以便在无需强化学习步骤的情况下使 LLM 与人类偏好对齐(第三篇博客文章)。尽管如此,DPO 并未解决所有缺点,例如,需要大量的偏好数据才能进行微调。为了解决这个问题,研究人员提出了新的方法。其中一些方法是人工智能反馈强化学习 (RLAIF) 或自博弈微调 (SPIN)(第四篇和第五篇博客文章)。在第六篇博客文章中,我们讨论了身份偏好优化 (IPO) 如何旨在增强数据对齐并减轻过拟合。
在本系列文章中,我们将深入探讨 KTO,这是一种通过使用前景理论来对齐 LLM 的新方法。
前景理论
使 LLM 与人类反馈对齐一直是推进生成模型最先进水平的关键。正如之前的博客文章中所见,事实证明,SFT 之后的偏好对齐比单独使用 SFT 更有效。在斯坦福大学和 Contextual AI 的这篇论文中,他们通过丹尼尔·卡尼曼和阿莫斯·特沃斯基的前景理论的视角来解释当前的这些结果。
前景理论的一个关键发现是损失厌恶,即损失的情感影响大于同等收益的相应影响的现象。损失厌恶会产生对与较低损失风险相关的选项的偏好。它使我们规避风险。(安妮·杜克)
该理论发表于 1979 年,对于卡尼曼获得 2002 年诺贝尔经济学纪念奖至关重要,该理论描述了个人如何以不对称的方式评估其收益和损失前景。我们人类对损失比对收益更敏感,并且当面对不确定的事件时,我们可能会做出无法最大化期望值的决策。例如,假设一个赌局可能返回
卡尼曼和特沃斯基对假设价值函数的原始表示。穿过参考点的价值函数是不对称的,损失比收益更陡峭,表明了损失厌恶的概念。来自前景理论论文。
事实证明,前景理论是卡尼曼和特沃斯基所做的最重要工作,也是社会科学中最常被引用的理论之一。如果您想深入了解该主题,可以查看 Pete Judo 的这段视频或这篇概述
HALO 和 KTO
流行的对齐方法,如 PPO 和 DPO,对前景理论描述的那些人类偏见进行建模,因此,它们可以被定义为人类感知损失函数或 HALO。尽管没有区分使 HALO 比非 HALO 更好本身,但当前最先进的技术表明,HALO 定义下的那些损失函数比那些非 HALO 定义下的损失函数效果更好。
卡尼曼-特沃斯基优化 (KTO) 过程直接最大化生成的效用,而不是最大化偏好的对数似然。KTO 仅需要输出是否合乎期望的二元信号,这是一种比偏好更容易获得的数据。
但是,成为 HALO 重要吗?在损失函数中对人类偏见进行建模的这个概念是否会为对齐带来实际好处?在各种 Pythia 和 Llama 模型上,使用不同的参数大小,并在相同的设置和数据下进行实验性比较后,证明 HALO 在所有尺度上都与非 HALO 相匹配或优于非 HALO,即使差距仅在具有 130 亿或更多参数的模型中才显着。对于参数高达 70 亿的模型,仅对齐几乎无法提供优于单独 SFT 的增益。
卡尼曼-特沃斯基优化
KTO 构建于 KL 约束的 RLHF 目标函数之上,并插入来自卡尼曼-特沃斯基人类效用模型的表达式,同时还添加了一些更改以使其与 LLM 兼容。它的工作原理是添加一个 KL 惩罚,如果模型以通用方式增加期望示例的奖励,则该惩罚会上升。这迫使模型学习是什么使输出合乎期望,以便在保持 KL 平坦的同时增加奖励。
在将 PPO 与 DPO 进行比较时,他们发现 +1/-1 奖励信号的表现与 DPO 一样好,甚至更好。这意味着,注释不是使用比较两个提示并根据用户更喜欢哪个提示进行排名的数据,而是使用正信号(如果指令或提示有用或可接受)或负信号(如果不可接受)。这种意想不到的成功表明,像这样的信号可能足以达到 DPO 级别的性能。
流程概述,来自 ContextualAI。
由于这种洞察力,他们开发了一种使用卡尼曼-特沃斯基人类效用模型的 HALO,这使他们能够仅使用关于给定输入的输出是否合乎期望的二元信号来直接优化效用。该过程称为卡尼曼-特沃斯基优化 (KTO),它可以使用比偏好数据更丰富、更便宜且更易于收集的数据来实现最先进的对齐。
KTO 在所有尺度上都与 DPO 一样好或更好,无论之前是否进行 SFT 过程。对于 Llama 模型,单独使用 KTO 即可与 SFT 和 DPO 相结合的性能相匹配,并且优于单独使用 DPO。误差条表示 90% 的二项式置信区间。
经过一些实验,出现了两个非常有趣的结果
- 在不首先进行 SFT 的情况下,DPO 对齐的模型往往会胡言乱语并幻想着整个对话。KTO 不会出现这种现象。
- 在丢弃 90% 的期望示例,同时保留不期望的数据后,KTO 对齐的 Llama-7B 模型仍然优于 DPO。这意味着偏好对不一定是 KTO 数据的来源。
何时使用 KTO,何时使用 DPO?
如果可用的人类反馈是二元格式,或者如果期望示例和不期望示例之间存在不平衡,则 KTO 表现出色。如果数据以偏好的形式存在,则选择变得不太明确。理论分析表明,如果数据具有相对较低的噪声和非传递性,则 DPO 会更好,因为 KTO 存在欠拟合的风险。但是,如果存在噪声,则 KTO 更好的最坏情况保证会优于 DPO。
大多数公开可用的数据集都被证明是嘈杂的,人类偏好相互矛盾。这解释了为什么 KTO 在实验中与 DPO 的性能相匹配或超过 DPO 的性能。人工智能反馈也可能存在噪声和非传递性,因此在这种情况下,DPO 也可能是最佳选择。
ContextualAI 对高达 30B 的对齐模型进行的现有方法比较。卡尼曼-特沃斯基优化在未对齐模型、标准微调和 DPO 上都提供了显着的性能提升。
结论
这项工作介绍了 HALO,这是一类人类感知损失函数,基于卡尼曼和特沃斯基在建模人类如何面对不确定性和输/赢情景方面的工作。它表明,在现有的对齐方法中,那些可以被认为是 HALO 的方法比那些不是 HALO 的方法表现更好。它还引入了一种人类感知损失函数,称为 KTO,用于仅通过从二元信号中学习来直接最大化生成的效用。从 1B 到 30B,KTO 与 DPO 一样好或更好。
仍有许多工作要做,因为 HALO 的存在提出了许多问题。什么价值函数和 HALO 最能描述人类如何感知语言?我们可以将合成数据推向多远?我们还可以使用 KTO 对哪些其他类型的模型进行合成优化?
想了解更多?
这是专门介绍 RLHF 替代方案的系列博客文章的第七篇。第一篇、第二篇、第三篇、第四篇、第五篇和第六篇帖子也可以在我们的网站上找到。
Argilla 和 Mantis NLP 团队很乐意帮助您解答关于使用监督式微调、强化学习或直接偏好优化训练 LLM 的准备步骤的任何问题。
Argilla 的 LLM 数据平台目前支持所有数据管理步骤,而 Mantis NLP 则为整个过程提供端到端支持。