主题

文生图

从自然语言提示生成或编辑图像的模型。

文生图 · Google Research

Imagen：文生图质量不只取决于图像模型

Imagen 表明，更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。

文生图 · OpenAI

DALL·E 2:通过 CLIP 潜变量生成图像

DALL·E 2 把文生图拆成两步:先由文本预测 CLIP 图像嵌入,再由解码器把这个嵌入生成图像。

扩散模型 · CompVis

Latent Diffusion:实用高分辨率图像生成的底层论文

Latent Diffusion 把去噪过程从像素空间搬到压缩后的自编码器潜空间,显著降低高分辨率图像生成成本,同时保留扩散模型的灵活性。