DPO:去掉强化学习循环的对齐技巧

一句话

Direct Preference Optimization 把偏好微调变成类似分类的简单目标,避免显式奖励模型和强化学习循环。

解决什么问题

RLHF 让语言模型更有用,但标准流程很复杂:先收集偏好数据,训练奖励模型,再用强化学习微调语言模型,同时约束它不要偏离原模型太远。这个流程不稳定,也很依赖超参数。DPO 提出的问题是:能不能直接用偏好数据完成对齐,不再显式训练奖励模型和跑 RL 循环。

DPO 重新参数化 RLHF 里的奖励模型,让最优策略可以用闭式形式写出来。它不再训练单独奖励模型,也不跑 PPO 式优化,而是用偏好回答和被拒回答构成的简单损失直接训练语言模型。换句话说,模型通过偏好目标隐式扮演自己的奖励模型。

论文报告 DPO 稳定、计算轻量,在偏好对齐任务上达到或超过已有方法。它在情感控制上超过 PPO 式 RLHF,在摘要和单轮对话质量上也匹配或改善已有方法。实际意义是训练循环大幅简化,更容易复现和扩展。

DPO 流行是因为它让对齐实验变得容易。实验室和开源社区可以用偏好对微调模型,不必维护完整 RL 栈。它也澄清了一个重要观点:只要数学形式设置正确,很多奖励模型行为可以被吸收到语言模型目标里。

DPO 的效果仍取决于偏好数据和比较设置。它可能过拟合某种写作风格,放大浅层偏好,或者优化那些不能代表长期有用性的成对选择。它本身也不解决评测、安全和多轮行为问题。方法变简单了,但「优化谁的偏好」这个社会问题仍然很难。

一句话:DPO 让偏好微调重新像监督学习一样简单。