对齐 · Stanford University DPO:去掉强化学习循环的对齐技巧 Direct Preference Optimization 把偏好微调变成类似分类的简单目标,避免显式奖励模型和强化学习循环。