机构

JIUTIAN Research

与中国移动九天大模型计划相关的研究团队,参与本文工作。

TELBench 让模型在十余步的研究轨迹里找出坏掉的那一段。DRIFT 用主张对证据的审计法,把 span 级宏 F1 推到 54.91%,比直接喂原始轨迹最高高出 30 个百分点。