大模型推理 · Samsung Research TrOPD:面向小模型的信任域在线策略蒸馏 TrOPD 只在教师真正可信的 token 上做在线策略蒸馏,在数学、代码、STEM 上比标准 OPD 平均高出 3.06 到 3.52 分。