主题

多模态模型

把语言与图像、音频、视频或其他信号结合的基础模型。

多模态模型 · Google DeepMind

Flamingo：把少样本提示带进视觉语言模型

Flamingo 将预训练视觉编码器和大语言模型连接起来，让图像、视频和文本任务可以通过少量示例完成。

文生图 · Google Research

Imagen：文生图质量不只取决于图像模型

Imagen 表明，更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。

语音识别 · OpenAI

Whisper：用大规模弱监督训练稳健语音识别

Whisper 表明，大规模、多样化、弱监督音频数据可以训练出更稳健的多语言识别和翻译模型。

文生图 · OpenAI

DALL·E 2:通过 CLIP 潜变量生成图像

DALL·E 2 把文生图拆成两步:先由文本预测 CLIP 图像嵌入,再由解码器把这个嵌入生成图像。

多模态模型 · OpenAI

CLIP:让计算机视觉学会读自然语言

CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。

长上下文 · Google DeepMind

Gemini 1.5:长上下文从演示能力变成产品能力

Gemini 1.5 让百万 token 多模态上下文不再只是炫技,而是能处理长文档、视频、音频和代码库的真实交互方式。

多模态模型 · OpenAI

GPT-4:让前沿模型变得可评测的技术报告

GPT-4 技术报告公开的不是完整配方,而是一套衡量方式:多模态 Transformer、可预测扩展、后训练对齐和跨任务基准共同重塑了前沿 AI 预期。