书库技术与未来All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning
书籍封面

All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning

作者 Gokul Swamy, Sanjiban Choudhury, Wen Sun, Zhiwei Steven Wu, J. Andrew Bagnell
18.0 分钟

摘要

这篇论文讲了什么?

  • 这篇论文探讨了在微调基础模型时,使用强化学习(RL)的价值,尤其是在存在“生成-验证差距”的问题中,在线强化学习可以简化搜索空间,从而实现优于离线最大似然估计的性能。
  • 你能获得:理解RL在微调中的作用机制,了解在线RL优于离线方法的潜在原因,以及在哪些情况下RL微调可能更有优势。

核心内容:

1. 在理想假设下,在线和离线偏好微调(PFT)技术应返回质量相当的策略。

  • 使用信息几何的工具,论文证明了无论覆盖范围或偏好数据样本数量如何,当策略和奖励模型使用相同的功能类别时,离线和在线PFT技术具有相同的最优集。
  • 这表明,在特定条件下,通过奖励模型进行中间步骤并不能提供额外的优势。

2. 论文提供了反对先前/新颖假设的证据,这些假设解释了RL在PFT中的价值。

  • 这些假设包括:在线技术对先前策略执行更好的正则化、在线抽样提供的计算优势,或使用更广泛的数据分布来训练奖励模型的能力。
  • 尽管难以完全排除这些因素的影响,但论文提供的证据表明它们并非全部原因。

3. 论文为存在生成-验证差距的问题提供了一个替代假设的理论和实证证据。

  • 许多计算机科学问题被广泛推测具有比生成器/最优策略更简单的验证器/奖励模型。
    • 详细解释:这意味着验证一个解决方案(例如,判断一个摘要是否好)可能比生成解决方案(例如,编写一个好的摘要)更容易。
  • 论文假设,对于这些问题,从偏好数据中学习相对简单的奖励模型比学习相对复杂的最佳策略更容易,即使在相同的功能类别中也是如此。
    • 详细解释:即使奖励模型和策略具有相同的复杂性,学习奖励模型也可能因为其任务的简单性而更容易。
  • RLHF(从人类反馈中进行强化学习)仅仅作为一种计算此简单验证器的(软)最优策略的方式。
    • 详细解释:RLHF的主要作用是找到与简单奖励模型相对应的策略,而不是直接优化复杂策略。

4. 论文提出,双阶段交互式FT的价值在于将策略的搜索空间缩小到仅限于那些对于相对简单的验证器来说是最优的策略。

  • 在统计学习的语言中,这表示RL在微调中的真正好处在于,与不正确的离线FT相比,它是执行正确学习的最方便方法。
    • 详细解释:正确学习是指在包含目标函数的较小假设类中进行搜索,而不正确学习则是在更大的假设类中进行搜索。

5. 论文进行了实验来支持其假设,并反驳其他可能的解释。

  • 这些实验包括在各种设置下比较在线和离线PFT,例如不同的采样分布、标签器和模型大小。
    • 详细解释:通过控制实验条件,论文旨在隔离RL在微调中的影响,并评估不同假设的有效性。
  • 实验结果表明,即使在信息论上没有明显分离的情况下,在线PFT在不同的采样分布、标签器和模型大小上都优于离线PFT。
    • 详细解释:在线PFT的表现更好,表明RL提供了一种找到更好策略的方法,即使它没有引入新的信息。

6. 论文通过缩小生成-验证差距来进一步验证其假设。

  • 通过减少问题的范围(例如,生成两个词的摘要)或使用一个可以轻松“读出”最佳策略的奖励函数(例如,ROUGE-L指标),论文表明在线PFT不太可能优于离线PFT。
    • 详细解释:当生成和验证的难度相似时,RL的优势减小,这支持了生成-验证差距是RL在微调中发挥作用的关键因素。

7. 论文强调了在软RL中策略和奖励模型的同构性,但指出从奖励到策略的映射比反过来更复杂。

  • 这是因为从奖励到策略的映射需要解决一个困难的强化学习问题。
    • 详细解释:即使策略和奖励模型可以相互转换,但转换的难度可能不同,这影响了学习每个模型的难易程度。
  • 论文认为,像DPO这样优化局部奖励模型并不能避免直接学习生成器的根本统计困难。
    • 详细解释:DPO虽然使用奖励模型,但其优化过程仍然面临与直接学习策略相同的挑战。

问答

Q: 什么是"生成-验证差距",为什么它对RL微调很重要?

A: "生成-验证差距"指的是对于某些问题,验证一个解决方案(例如,判断一个摘要是否好)比生成解决方案(例如,编写一个好的摘要)更容易。这个差距对RL微调很重要,因为论文认为,在线RL的优势在于它可以通过学习一个相对简单的奖励模型来利用这种差距,然后使用RL来找到与该奖励模型相对应的策略,从而简化了搜索空间。

Q: 论文中提到的"正确学习"和"不正确学习"有什么区别?

A: "正确学习"是指在包含目标函数的较小假设类中进行搜索,例如,限制策略为那些与简单奖励模型相对应的策略。"不正确学习"则是在更大的假设类中进行搜索,例如,允许策略为任何可能的策略,而不管其与奖励模型的关系。论文认为,在线RL通过执行正确学习来简化问题,而离线FT则面临更难的不正确学习问题。

Q: 论文的实验结果如何支持其主要假设?

A: 论文的实验结果表明,在线PFT在各种设置下都优于离线PFT,并且缩小生成-验证差距会导致在线PFT的优势减小。此外,论文还发现,与局部奖励模型相比,全局奖励模型更容易学习,并且具有更好的验证似然。这些结果都支持了论文的主要假设,即在线RL通过利用生成-验证差距和学习相对简单的奖励模型来简化搜索空间。

思维导图

目标读者

本文的目标读者是机器学习研究人员、自然语言处理从业者以及对基础模型微调和强化学习交叉领域感兴趣的人。本文假设读者对强化学习、深度学习和自然语言处理有基本的了解。

作者背景

本文由来自卡内基梅隆大学、康奈尔大学和 Aurora Innovation 的研究人员合著。Gokul Swamy、Sanjiban Choudhury、Wen Sun、Zhiwei Steven Wu 和 J. Andrew Bagnell 在机器学习、机器人和人工智能领域拥有深厚的学术和行业背景。他们在强化学习、自然语言处理和深度学习方面的专业知识为本文的研究结果和分析提供了信息。

历史背景

近年来,基础模型在各种自然语言处理任务中表现出了卓越的性能。微调是使这些模型适应特定任务的关键步骤。传统上,微调是通过最大似然估计 (MLE) 等离线方法进行的。然而,最近的研究表明,使用来自人类反馈的强化学习 (RLHF) 等在线方法可以获得更好的结果。本文旨在解释为什么在线微调优于离线微调,尽管在线方法涉及通过奖励模型传递信息,这在信息论上会导致信息损失。

章节摘要

音频

Comming Soon...