Imagen:文生图质量不只取决于图像模型
Imagen 表明,更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。
主题
从自然语言提示生成或编辑图像的模型。
Imagen 表明,更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。
DALL·E 2 把文生图拆成两步:先由文本预测 CLIP 图像嵌入,再由解码器把这个嵌入生成图像。
Latent Diffusion 把去噪过程从像素空间搬到压缩后的自编码器潜空间,显著降低高分辨率图像生成成本,同时保留扩散模型的灵活性。