大模型推理 · DeepSeek DeepSeek-R1:纯强化学习如何教大模型学会推理 只奖励答案对错、不喂人工推理过程,DeepSeek-R1 让大模型自发学会逐步推理,数学基准比肩 OpenAI o1,且开源 MIT 权重。