DALL·E 2:通过 CLIP 潜变量生成图像

一句话

DALL·E 2 把文生图拆成两步:先由文本预测 CLIP 图像嵌入,再由解码器把这个嵌入生成图像。

解决什么问题

文生图模型需要把语言转成视觉内容,同时保留语义和风格。直接从文本映射到像素很难:提示词描述的是高层概念,输出图像却包含大量低层细节。DALL·E 2 的思路是用 CLIP 的联合嵌入空间做中间层,让语言和图像生成之间有一个语义桥梁。

系统分两阶段。prior 根据文本说明生成 CLIP 图像嵌入;decoder 再根据这个嵌入生成图像。OpenAI 用扩散模型做解码器,并比较自回归 prior 和扩散 prior,发现扩散 prior 更高效、样本质量更好。这种层级结构把「图像应该表达什么」和「图像如何渲染」拆开。

显式生成图像表征可以提升多样性,同时尽量不损失照片真实感和文本匹配度。模型还能生成图像变体,保留原图语义和风格,改变非关键细节。由于 CLIP 的嵌入空间同时连接文本和图像,它也支持零样本语言引导图像编辑。

DALL·E 2 帮助定义了现代文生图产品体验:输入一句话,得到可信图像,继续要求变体,再用语言控制风格。它也证明了表征学习和生成建模可以叠在一起,而不是两个彼此分离的研究方向。

CLIP 潜变量有用,但也是有损表示。它可能保留大体语义,却丢掉精确空间关系或罕见细节。和其他图像生成模型一样,DALL·E 2 会继承数据偏见,可能产生伪影,也很难稳定生成文字或精确构图。更大的问题是,控制权应该放在提示词、潜变量,还是显式编辑界面里。

一句话:DALL·E 2 让 CLIP 成为语言到图像合成的桥。