MaxProof:MiniMax-M3如何做数学证明搜索
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
机构
中国顶尖研究型大学,其 AI 团队在深度生成模型、扩散模型与机器学习方向产出领先成果。
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
清华 LongTraceRL 从搜索智能体轨迹挖更难的干扰文档,再加实体级 rubric 奖励,让 Qwen3-4B 五个长上下文基准平均分从 53.3 涨到 59.0。
CHERRL 主动给裁判注入四类已知偏见,让奖励黑客稳定复现;只读训练日志的检测 agent 把六次实验的起点定位区间误差合计压到 11 步,零漏检。
Echo-Infinity 用可学习演化记忆以恒定成本压缩任意长度历史,单张 H100 上 18.5 FPS 实现 24 小时(超 130 万帧)实时生成。
在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。
Causal Forcing++ 把双向视频扩散蒸馏成 1-2 步逐帧自回归生成器,跑到 14.1 FPS,首帧延迟降一半,少步训练成本砍约 4 倍。