主题

对齐

让模型行为更符合偏好、更安全或更有用的训练方法。

对齐 · OpenAI

InstructGPT:为什么更大的模型仍需要人类反馈

InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。

对齐 · Stanford University

DPO:去掉强化学习循环的对齐技巧

Direct Preference Optimization 把偏好微调变成类似分类的简单目标,避免显式奖励模型和强化学习循环。