微调与适配 · T-Tech 信赖域行为混合 TRB:给在线策略蒸馏的热身修补 在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。