A: "生成-验证差距"指的是对于某些问题,验证一个解决方案(例如,判断一个摘要是否好)比生成解决方案(例如,编写一个好的摘要)更容易。这个差距对RL微调很重要,因为论文认为,在线RL的优势在于它可以通过学习一个相对简单的奖励模型来利用这种差距,然后使用RL来找到与该奖励模型相对应的策略,从而简化了搜索空间。
A: "正确学习"是指在包含目标函数的较小假设类中进行搜索,例如,限制策略为那些与简单奖励模型相对应的策略。"不正确学习"则是在更大的假设类中进行搜索,例如,允许策略为任何可能的策略,而不管其与奖励模型的关系。论文认为,在线RL通过执行正确学习来简化问题,而离线FT则面临更难的不正确学习问题。
A: 论文的实验结果表明,在线PFT在各种设置下都优于离线PFT,并且缩小生成-验证差距会导致在线PFT的优势减小。此外,论文还发现,与局部奖励模型相比,全局奖励模型更容易学习,并且具有更好的验证似然。这些结果都支持了论文的主要假设,即在线RL通过利用生成-验证差距和学习相对简单的奖励模型来简化搜索空间。
本文的目标读者是机器学习研究人员、自然语言处理从业者以及对基础模型微调和强化学习交叉领域感兴趣的人。本文假设读者对强化学习、深度学习和自然语言处理有基本的了解。
近年来,基础模型在各种自然语言处理任务中表现出了卓越的性能。微调是使这些模型适应特定任务的关键步骤。传统上,微调是通过最大似然估计 (MLE) 等离线方法进行的。然而,最近的研究表明,使用来自人类反馈的强化学习 (RLHF) 等在线方法可以获得更好的结果。本文旨在解释为什么在线微调优于离线微调,尽管在线方法涉及通过奖励模型传递信息,这在信息论上会导致信息损失。