RLHF and alternatives: RLAIF

RLHF 及其替代方案:RLAIF

2024 年 2 月 21 日

Argilla, MantisNLP

简介

这是一系列关于人类反馈强化学习替代方案的博客文章,由 Argilla 和 MantisNLP 团队共同努力创建。请确保您已阅读本系列中的第一篇、第二篇和第三篇文章,以充分理解背景和讨论的进展,然后再继续阅读本文。滚动到页面底部以转到本系列的下一篇博客文章。

在本系列的第一篇文章中,我们分析了对预训练的 LLM 进行监督微调所需的工作,以及格式化为指令的数据对于此步骤的重要性。在第二篇文章中,我们描述了强化学习,解释了为什么它需要高质量的偏好数据。第三篇文章(暂时是最后一篇)专门介绍了直接偏好优化,这是一种通过使用与奖励模型相同的 LLM 作为奖励模型来避免使用奖励模型以与人类偏好对齐的方法,使用人类偏好数据来确定哪些响应是首选,哪些不是。

对于这篇文章,我们想向您介绍来自人工智能反馈的强化学习 (RLAIF),它克服了 RLHF 的主要问题:对人类标记数据的需求。

偏好数据及其来源

正如我们在之前的博客文章中看到的那样,RLHF 是一种将语言模型与人类偏好对齐的有效技术,但其主要障碍在于它对高质量人类偏好数据的依赖。这个事实自动引出了这个人工智能驱动的世界中的下一个问题:人工智能生成的标签可以成为可行的替代品吗? 这正是 Anthropic 在他们的出版物《宪法人工智能:来自人工智能反馈的无害性》(Bai 等人,2022)中首次提出的问题,他们在其中试验了训练无害人工智能助手的方法,并引入了宪法人工智能的概念。

此方法中唯一使用的人类数据是一部宪法,这是一组人为策划的原则,用于影响所产生的人工智能助手的行为。在这个模式中,人工智能助手整合了来自另一个 LLM 而不是来自人类的反馈,同时受到宪法的指导。他们主要发现了三个好处:卓越的性能、更少的主观性和更高的可扩展性。然而,在第一种方法中,人类反馈和人工智能反馈之间的直接比较没有进行,这使得 RLAIF 是否是合适的替代方案的问题悬而未决。

在 Anthropic 的基础上,谷歌研究院 (Lee 等人,2023) 证明 RLAIF 在多项 NLP 任务中实现了卓越的性能,并且在强化学习阶段直接提示 LLM 获取奖励分数可以胜过标准的奖励模型设置,从而使这个过程不那么复杂。

一张图表描绘了顶部的 RLAIF 和底部的 RLHF。来自 Lee 等人,2023 年。

RLAIF 如何工作?

与 RLHF 相反,这种方法生成了自己的偏好数据集。给定一个提示和对该提示的两个响应(在提示-响应元组中,复制提示),来自人工智能反馈的奖励模型根据宪法为每对生成一个分数。这种人工智能生成的偏好数据,不仅仅是决定哪个答案更好或更差(人类注释者会做的事情),而是提供了一个介于 0 和 1 之间的数值偏好值。

对提示的响应示例,以及奖励模型给出的数值偏好反馈。来自 https://www.assemblyai.com/blog/how-reinforcement-learning-from-ai-feedback-works/

一个提示示例,输入到 LLM 以生成用于摘要的人工智能偏好标签。序言有效地充当了宪法。还给出了一个注释示例。之后,文本、摘要 1 和摘要 2 用未标记的示例填充,并通过计算生成第一个摘要或第二个摘要的标记的对数概率的 softmax 来获得偏好分布。来自 Lee 等人,2023 年。

其余程序与 RLHF 类似,因为人工智能生成的偏好数据用于训练奖励模型,然后奖励模型用于对 LLM 进行强化学习。

RLAIF 使用三个指标进行评估

  • 人工智能标记器对齐,衡量人工智能偏好数据关于人类偏好的准确性。
  • 胜率,评估一种人工智能生成的策略相对于经典 RLHF 方法的偏好频率
  • 无害率,量化人类评估者认为无害的响应百分比。

提炼或直接 RLAIF

在通过 LLM 标记偏好之后,在标准的 RLAIF 设置中,奖励模型在获得的软标签(数值,从 0 到 1)上进行训练。然后,交叉熵损失应用于奖励分数的 softmax。softmax 将奖励模型输出的分数转换为概率分布。最后,进行强化学习以训练 RLAIF 策略模型,使用 RM 模型为模型响应分配奖励。

然而,Lee 等人研究的另一种方法是直接使用 LLM 反馈作为奖励。然后提示 LLM 对 1 到 10 之间的生成质量进行评分。用于评分生成的维度在提示中引入,以便 LLM 做出更好的判断。然后,从 1 到 10 计算每个分数的可能性,并归一化为概率分布,然后用于计算加权分数,该分数再次归一化到 -1, 1 的范围内。此分数可以直接用作奖励。

RLAIF vs RLHF

在分析的三个任务(摘要、有益的对话生成和无害的对话生成)中,RLAIF 实现了与 RLHF 相等或更好的性能。RLAIF 和 RLHF 策略倾向于生成比 SFT 策略更长的响应。当前最先进的研究结果表明,RLAIF 是 RLHF 的可行替代方案,同时不依赖于人类数据。它的主要优点是成本降低,据估计比获得同等的人工注释便宜 10 倍。

人类评估者更喜欢 RLAIF 和 RLHF 而不是用于摘要和对话生成的 SFT。RLAIF 与 RLHF 同样受欢迎。在无害性方面,RLAIF 优于两者。

在定性观察方面,RLAIF 和 RLHF 通常产生相似的摘要,但存在一些差异

  • RLAIF 在 RLHF 不会发生幻觉时会产生幻觉。当 LLM 提示与输入或预期响应无关的信息时,就会发生幻觉,就好像它是编造的一样。在 Lee 等人的一个例子中,摘要声明作者 20 岁,但从未提及。
  • RLAIF 有时会产生比 RLHF 更不连贯或语法不太正确的摘要。

SFT、RLHF 和 RLAIF 策略生成的摘要示例。RLHF 和 RLAIF 生成的摘要质量优于 SFT。

结论

RLAIF 实现了与 RLHF 相似或更好的结果,同时将成本保持在最低水平,并且人类以相似的比率更喜欢它们。即使关于 RLAIF 的潜力仍然存在未解决的问题,但目前它是一种可行的替代方案,并且在低资源环境中,它可以成为生成最先进的 LLM 的关键工具。要继续深入研究 RLAIF,您可以查看 Sharma 等人对当前最先进技术的评估。

这是致力于 RLHF 替代方案的系列博客文章的第四篇。本系列的第一篇、第二篇和第三篇文章也可以在我们的网站上找到;其中更多文章正在制作中。请参阅本博客系列的下一部分此处

Argilla 和 Mantis NLP 团队很乐意帮助您解决有关使用监督微调、强化学习或直接偏好优化训练 LLM 的准备步骤的任何问题。

Argilla 的 LLM 数据平台目前支持所有数据整理步骤,而 Mantis NLP 则提供整个过程的端到端支持。