主题

AI 科学

将机器学习用于科学发现——生物、化学、物理与材料,从蛋白质结构到新材料设计。

LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。

DynamicMPNN:多状态蛋白质设计把多构象蛋白质序列设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

Feynman-Kac 引导可控蛋白设计把用引导扩散做可控蛋白设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

HOList:高阶逻辑定理证明环境把面向高阶逻辑证明的机器学习落到具体方法和可检查结果上,适合判断该方向的真实进展。

MiniF2F:形式化奥赛数学基准把形式化奥赛级数学评测落到具体方法和可检查结果上,适合判断该方向的真实进展。

ProGen2:蛋白质语言模型设计蛋白把蛋白质序列建模与设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

ResearchClawBench:自主科研智能体基准把端到端自主科研智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

TIDE:模板引导的主动发现问题把主动式问题发现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。

ESM3 同时建模蛋白质序列、结构和功能,生成出与已知荧光蛋白仅 58% 相同、但实际发亮的新蛋白。

MatterGen 是按目标性质生成无机晶体的扩散模型——它唯一真正合成出来的 TaCr2O6,实测刚度与 200 GPa 目标相差约 20%。

GENEB 用统一探针协议,在 13 类共 100 个任务上评测 40 个基因组基础模型的冻结表征,发现排名跨类别剧烈翻转,堆参数只换来微弱且不稳定的提升。

AlphaFold 3 用扩散网络替换了 AlphaFold 2 的结构模块,在同一个模型里预测蛋白与核酸、配体、离子、修饰残基组成的整套复合体。