Whisper:68 万小时弱监督训练稳健语音识别
OpenAI 的 Whisper 用 68 万小时网络音频训练单个序列到序列模型,零样本即可匹敌全监督系统,无需微调,并兼做翻译与语言识别。
快速答案
Whisper 用一个编码器-解码器 Transformer,在 68 万(680,000)小时从互联网抓取的多语言、多任务音频上训练,然后直接零样本跑在各标准基准上——不做任何针对单一数据集的微调——依然能与此前的全监督模型竞争,并逼近人类的准确率和稳健性。它的核心赌注是用规模和多样性换干净标签:不再死磕单一精标语料上的最低词错率,而是在嘈杂的真实音频上训练,这样面对基准里从未出现的口音、噪声和录音条件时,性能下降得更平缓。
68 万小时弱监督音频
规模这个数字就是整篇论文的关键。68 万小时远超学术 ASR 通常使用的约 1000 小时干净标注语音。“弱监督”指转写文本直接来自网络——自动生成的字幕、质量参差的人工字幕——而非受控的标注流程。OpenAI 过滤掉了机器生成的转写(在另一套 ASR 系统的输出上训练,只会学到它的错误),并用启发式规则剔除音文不对齐的样本,但数据仍远比基准嘈杂。这 68 万小时中很大一部分是非英语,约 12.5 万小时是翻译数据(其他语言音频 → 英文文本),这正是让单个模型既能转写又能翻译的原因。
一个模型,靠文本 token 做四件事
Whisper 在架构上刻意保持朴素:就是标准 Transformer 编码器-解码器,输入对数梅尔谱,没有任何花哨结构。真正的新意在输出格式。解码器序列开头的特殊 token 指定任务——转写还是翻译、哪种语言、要不要预测时间戳——于是转写、翻译、语言识别和时间戳对齐都变成同一个模型预测的文本。这就是 Whisper 以单一模型族交付、而非堆叠多个独立模型的原因,也是开发者把它当作即插即用基础设施的原因。
为什么稳健性胜过基准 SOTA
在 LibriSpeech 这类单一分布内基准上,Whisper 往往不是词错率最低的模型——在该语料上微调过的模型会赢它。论文的论点是这种比较具有误导性:微调模型过拟合了自己测试集的怪癖,而 Whisper 在分布漂移下的错误率保持稳定。诚实的说法是:Whisper 用干净基准上一两个百分点的准确率,换来真实场景中小得多的性能衰减。对任何要在真实、未见音频上部署 ASR 的人来说,这笔交易才是重点。
关键结果
- 在 68 万小时标注音频上训练,含多语言与翻译数据,规模比典型监督式 ASR 高出几个量级。
- 以零样本泛化到标准基准、无需微调,且常能与此前全监督结果竞争。
- 在 OpenAI 跨噪声与漂移条件的对比中,逼近人类的准确率和稳健性。
- 单个模型完成多语言转写、其他语言→英文翻译、语言识别和时间戳预测,由任务 token 选择。
- OpenAI 公开了模型与推理代码,正是这一点把研究成果变成了被广泛部署的基础设施。
局限与存疑
弱监督是把双刃剑。训练转写本身含有真实错误,Whisper 会继承它们——在静音或非语音段,它可能”幻觉”出流畅却虚构的文本,这是已知失效模式,在医疗、法律、可访问性等场景尤其危险:一段自信的错误转写比没有转写更糟。语言覆盖严重偏向高资源语言,低资源语言质量骤降,所以”多语言”并不等于”质量均匀”。68 万小时语料并未完全公开,限制了复现。在网络音频上训练还带来论文未解决的同意与隐私问题。长音频解码仍依赖时间戳和重复处理的启发式规则,可能失效。高风险用途仍需置信度检查和人工复核。
常见问题
Whisper 是用什么数据训练的?
Whisper 用从网络收集的 68 万小时标注音频训练,覆盖多种语言并包含翻译对。之所以称为”弱”监督,是因为转写来自质量参差的真实字幕,而非精心标注的数据集。
Whisper 换新数据集需要微调吗?
不需要。Whisper 的核心结果就是强零样本迁移:无需针对具体数据集做任何微调,即可跑在标准基准上,并与直接在这些基准上训练的全监督系统竞争。
Whisper 是最准的语音识别模型吗?
并非在每个基准上都是。在 LibriSpeech 这类特定干净语料上微调过的模型,在该语料上能取得更低的词错率。Whisper 的优势是稳健性——面对口音、噪声和领域漂移时衰减小得多,而这在真实部署中更重要。
Whisper 能翻译吗,还是只能转写?
能翻译。同一个模型可做其他语言→英文的语音翻译、语言识别和带时间戳的转写,全部通过解码器序列开头的任务 token 选择。
Whisper 的启示:68 万小时嘈杂的网络音频,买来了干净基准永远给不了的稳健性。论文见 https://arxiv.org/abs/2212.04356。