介绍
这是关于人类反馈强化学习替代方案的一系列博文,由 Argilla 和 MantisNLP 团队联合创作。在继续阅读本文之前,请确保您已阅读本系列文章的第一篇、第二篇、第三篇和第四篇,以充分理解讨论的背景和进展。
在本系列的第一篇博文中,我们探讨了监督式微调 (SFT) 对于优化预训练的 LLM 以执行专门任务的重要性,以及此过程所需的基于指令的数据的性质。
在第二篇博文中,我们描述了人类反馈强化学习 (RLHF) 的过程以及为什么需要高质量的偏好数据。
在第三篇博文中,我们重点介绍了直接偏好优化 (DPO) 和事后链 (CoH),它们更为直接,因为它们表明 LLM 也可以充当奖励模型,使用人类偏好数据来确定首选响应。
在最后一篇博文中,介绍了来自人工智能反馈的强化学习 (RLAIF),以解决需要人工标记数据的问题,通过创建自己的偏好数据集来解决。
为什么选择自博弈微调 (SPIN)?
在之前的讨论中,我们强调了人们对允许 LLM 在不需要持续获取新注释数据(特别是人工注释数据)的情况下提高性能的方法越来越感兴趣。为了应对这一挑战,已经开发了像前面提到的 RLAIF 这样的解决方案。接下来,我们将介绍 SPIN。
我们能否在不获取额外人工注释数据的情况下,使一个较弱的 LLM 能够自我改进?
这是研究团队解决的问题。答案是肯定的。
SPIN 更进一步,独立于人类或复杂的 LLM 注释器。它受到 AlphaGo Zero 自博弈机制的启发,通过与其之前的版本竞争,无需任何直接监督并创建自己的训练数据。通过连续几轮的自博弈,模型逐渐改进,旨在使其响应越来越接近人类的响应。
这种方法通过克服 SFT 的限制,显著提高了模型在各种基准测试(如 HuggingFace Open LLM 排行榜和 MT-Bench)中的性能。然而,SPIN 面临一个限制:其成功取决于 LLM 的输出与目标人工生成数据分布的匹配程度。这意味着 LLM 通过微调可以提高的程度存在上限,这与训练数据的质量直接相关。
SPIN 是如何工作的?
SPIN 可以理解为一场双人游戏,所以让我们定义一下它们的“规则”。有关更多信息,您可以查看 GitHub 上的可用实现。
玩家角色
- 主要玩家:它是当前的 LLM,通过对其进行微调,使其更倾向于来自目标数据集的答案,而不是其先前版本生成的答案。其目标是辨别 LLM 生成的响应和人类生成的响应。
- 对手:它是来自先前迭代的旧 LLM。它的目标是生成与人类响应非常相似的响应。
回合
游戏开始时,选择一个 SFT LLM 及其 QA 训练数据集。然后,重复以下步骤,模型在每个“回合”中切换角色
- 生成新的合成答案:在第一次迭代期间,应用此 SFT 模型来生成 SFT 数据集中问题的替代答案。对于后续循环,采用最新的微调模型,旨在最大化其预期性能。为了防止与先前模型版本产生重大偏差并确保稳定性,使用了 Kullback-Leibler (KL) 正则化项。
- 创建训练数据集:创建一个新的训练数据集,其中包含原始(接受的)答案和新生成的合成(拒绝的)答案对。
- 在创建的训练数据集上微调 LLM:微调一个新的模型版本,旨在通过区分其生成的响应和来自原始数据集的人类响应来增强其响应策略。这种区分使用逻辑损失进行评估,这有助于防止函数绝对值过度增加。
例如,上图说明了迭代 0 时具有可能的幻觉(拒绝)的初始模型输出,以及选择的正确示例(原始)。它还显示了迭代 1 时微调后的增强模型输出。
游戏何时结束?
在每次迭代中,主要玩家更擅长识别人类生成的响应,而对手更擅长生成模仿人类响应的响应。当最复杂的 LLM 版本无法再区分其前身生成的响应和人类生成的响应时,这种“双人游戏”就结束了。
因此,生成数据和人类数据的概率分布将收敛。这意味着模型生成的响应与目标数据无法区分,因此质量更好。
DPO 与 SPIN
SPIN 和 DPO 方法有相似之处,但在几个关键方面有所不同,这使得它们成为可比较的方法
- SPIN 仅依赖于 SFT 数据集,使其成为一种成本较低的方法。DPO 需要额外的偏好数据。
- SPIN 专为 SFT 量身定制,而 DPO 专为强化学习微调而设计。
- 从实例级别来看,在 DPO 中,选择的响应需要更好。SPIN 侧重于在分布级别区分目标数据分布和较弱 LLM 的数据分布,然后再提高 LLM 的强度。
- DPO 采用单次迭代方法,而 SPIN 采用迭代自博弈策略。
分析使用 DPO 或 SPIN 训练的 zephyr-7b-sft-full 的性能表明,从相同的 SFT 检查点来看,SPIN 以更少的数据,从初始迭代开始就匹配甚至超过了 DPO 的平均性能,并且在迭代 1 中,在排行榜基准测试中优于 DPO。这证明了 SPIN 在利用可用资源方面的效率和有效性。
结论
SPIN 是一种改进 LLM 的突破性方法。它最大限度地减少了对新注释的依赖,并成功地匹配甚至超越了传统的偏好调整方法,包括那些超出 RLHF 领域的方法,即使受到目标数据质量的限制。这为进一步研究以减少输入数据或用其他方法补充输入数据提供了坚实的基础,并展示了其在推进 LLM 改进领域方面的潜力。
想了解更多?
这是关于 RLHF 替代方案的 6 篇博文系列的第五篇。本系列的第一篇、第二篇、第三篇和第四篇博文也可以在我们的网站上找到。
Argilla 和 Mantis NLP 团队很乐意为您解答有关使用监督式微调、强化学习或直接偏好优化训练 LLM 的准备步骤的任何问题。
所有数据管理步骤目前都由 Argilla 的 LLM 数据平台支持,而 Mantis NLP 为整个过程提供端到端支持。