强化学习 · University of Edinburgh
SCOPE:让大模型在开放任务上自博弈进化
SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化,靠一份冻结的自评委打分,八个开放基准最高提升 +10.4 分,且不用任何人工标注的提示。
机构
位于伦敦、专注理工医商的研究型大学,拥有实力强劲的人工智能与机器学习研究团队。
强化学习 · University of Edinburgh
SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化,靠一份冻结的自评委打分,八个开放基准最高提升 +10.4 分,且不用任何人工标注的提示。