机构

Samsung Research

三星电子的前沿研发部门,在全球设有实验室,研究端侧 AI、大语言模型以及高效训练与推理。

大模型推理 · Samsung Research

TrOPD:面向小模型的信任域在线策略蒸馏

TrOPD 只在教师真正可信的 token 上做在线策略蒸馏,在数学、代码、STEM 上比标准 OPD 平均高出 3.06 到 3.52 分。