主题

扩散语言模型

用迭代去噪而非从左到右解码来生成文本——并行的非自回归语言模型。

扩散语言模型的机会与难题把扩散语言模型研究现状落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散语言模型的无因子化误差解码把离散扩散语言模型的投机解码落到具体方法和可检查结果上,适合判断该方向的真实进展。

SEDD:用概率比率做离散扩散语言模型把离散扩散语言建模落到具体方法和可检查结果上,适合判断该方向的真实进展。

Diffusion-LM 在连续词向量上迭代去噪,让梯度引导可以控制句法等细粒度属性,而不用重新训练语言模型。

dMoE 让 MoE 路由对齐扩散 LLM 的块级并行解码：在 LLaDA2.0-mini 上把每块唯一专家从 69.5 降到 14.6，保留 99.11% 精度，专家显存省 76-80%。

LLaDA 用掩码扩散取代下一个词预测,8B 模型在上下文学习上与 LLaMA3 8B 持平,GSM8K 拿 70.7,反向补诗任务还反超 GPT-4o。