Imagen：文生图质量不只取决于图像模型

一句话

Imagen 表明，更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。

解决什么问题

文生图模型要同时解决两个问题：图片看起来真实，以及图片真的符合提示词。Imagen 重点强调第二点，提出更强的语言理解能力可能直接提升图像生成质量，而不是只靠更大的图像生成器。

Imagen 使用大型冻结文本编码器理解提示词，再用级联扩散模型生成图像。系统先生成较低分辨率图像，再通过超分辨率扩散模型逐步提升细节。这种设计把语义理解和视觉细化拆成相对清晰的阶段。

论文报告了在人类偏好评测中很强的图像真实感和文本图像对齐表现。核心结论是：扩展语言编码器往往比只扩展图像生成器更有效，提示词理解本身就是文生图能力的重要瓶颈。

Imagen 推动文生图研究从“生成网络更强”转向“文本理解也要足够强”。它也强化了高质量生成系统常见的级联思路：先生成语义正确的粗图，再用后续模型补细节和分辨率。

照片级生成带来明显安全风险，包括伪造内容、偏见放大和版权争议。强提示对齐也不等于可靠理解空间关系、数量或事实约束。实际产品需要额外的内容安全、来源标注和滥用防护。

一句话：Imagen 把文本编码器推到了文生图质量的中心位置。