Flamingo:把少样本提示带进视觉语言模型
Flamingo 将预训练视觉编码器和大语言模型连接起来,让图像、视频和文本任务可以通过少量示例完成。
主题
把语言与图像、音频、视频或其他信号结合的基础模型。
Flamingo 将预训练视觉编码器和大语言模型连接起来,让图像、视频和文本任务可以通过少量示例完成。
Imagen 表明,更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。
Whisper 表明,大规模、多样化、弱监督音频数据可以训练出更稳健的多语言识别和翻译模型。
DALL·E 2 把文生图拆成两步:先由文本预测 CLIP 图像嵌入,再由解码器把这个嵌入生成图像。
CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。
Gemini 1.5 让百万 token 多模态上下文不再只是炫技,而是能处理长文档、视频、音频和代码库的真实交互方式。
GPT-4 技术报告公开的不是完整配方,而是一套衡量方式:多模态 Transformer、可预测扩展、后训练对齐和跨任务基准共同重塑了前沿 AI 预期。