Whisper：68 万小时弱监督训练稳健语音识别

快速答案

Whisper 用一个编码器-解码器 Transformer，在 68 万（680,000）小时从互联网抓取的多语言、多任务音频上训练，然后直接零样本跑在各标准基准上——不做任何针对单一数据集的微调——依然能与此前的全监督模型竞争，并逼近人类的准确率和稳健性。它的核心赌注是用规模和多样性换干净标签：不再死磕单一精标语料上的最低词错率，而是在嘈杂的真实音频上训练，这样面对基准里从未出现的口音、噪声和录音条件时，性能下降得更平缓。

68 万小时弱监督音频

规模这个数字就是整篇论文的关键。68 万小时远超学术 ASR 通常使用的约 1000 小时干净标注语音。“弱监督”指转写文本直接来自网络——自动生成的字幕、质量参差的人工字幕——而非受控的标注流程。OpenAI 过滤掉了机器生成的转写（在另一套 ASR 系统的输出上训练，只会学到它的错误），并用启发式规则剔除音文不对齐的样本，但数据仍远比基准嘈杂。这 68 万小时中很大一部分是非英语，约 12.5 万小时是翻译数据（其他语言音频 → 英文文本），这正是让单个模型既能转写又能翻译的原因。

一个模型，靠文本 token 做四件事

Whisper 在架构上刻意保持朴素：就是标准 Transformer 编码器-解码器，输入对数梅尔谱，没有任何花哨结构。真正的新意在输出格式。解码器序列开头的特殊 token 指定任务——转写还是翻译、哪种语言、要不要预测时间戳——于是转写、翻译、语言识别和时间戳对齐都变成同一个模型预测的文本。这就是 Whisper 以单一模型族交付、而非堆叠多个独立模型的原因，也是开发者把它当作即插即用基础设施的原因。

为什么稳健性胜过基准 SOTA

在 LibriSpeech 这类单一分布内基准上，Whisper 往往不是词错率最低的模型——在该语料上微调过的模型会赢它。论文的论点是这种比较具有误导性：微调模型过拟合了自己测试集的怪癖，而 Whisper 在分布漂移下的错误率保持稳定。诚实的说法是：Whisper 用干净基准上一两个百分点的准确率，换来真实场景中小得多的性能衰减。对任何要在真实、未见音频上部署 ASR 的人来说，这笔交易才是重点。

关键结果

在 68 万小时标注音频上训练，含多语言与翻译数据，规模比典型监督式 ASR 高出几个量级。
以零样本泛化到标准基准、无需微调，且常能与此前全监督结果竞争。
在 OpenAI 跨噪声与漂移条件的对比中，逼近人类的准确率和稳健性。
单个模型完成多语言转写、其他语言→英文翻译、语言识别和时间戳预测，由任务 token 选择。
OpenAI 公开了模型与推理代码，正是这一点把研究成果变成了被广泛部署的基础设施。

局限与存疑

弱监督是把双刃剑。训练转写本身含有真实错误，Whisper 会继承它们——在静音或非语音段，它可能”幻觉”出流畅却虚构的文本，这是已知失效模式，在医疗、法律、可访问性等场景尤其危险：一段自信的错误转写比没有转写更糟。语言覆盖严重偏向高资源语言，低资源语言质量骤降，所以”多语言”并不等于”质量均匀”。68 万小时语料并未完全公开，限制了复现。在网络音频上训练还带来论文未解决的同意与隐私问题。长音频解码仍依赖时间戳和重复处理的启发式规则，可能失效。高风险用途仍需置信度检查和人工复核。

常见问题

Whisper 是用什么数据训练的？

Whisper 用从网络收集的 68 万小时标注音频训练，覆盖多种语言并包含翻译对。之所以称为”弱”监督，是因为转写来自质量参差的真实字幕，而非精心标注的数据集。

Whisper 换新数据集需要微调吗？

不需要。Whisper 的核心结果就是强零样本迁移：无需针对具体数据集做任何微调，即可跑在标准基准上，并与直接在这些基准上训练的全监督系统竞争。

Whisper 是最准的语音识别模型吗？

并非在每个基准上都是。在 LibriSpeech 这类特定干净语料上微调过的模型，在该语料上能取得更低的词错率。Whisper 的优势是稳健性——面对口音、噪声和领域漂移时衰减小得多，而这在真实部署中更重要。

Whisper 能翻译吗，还是只能转写？

能翻译。同一个模型可做其他语言→英文的语音翻译、语言识别和带时间戳的转写，全部通过解码器序列开头的任务 token 选择。

Whisper 的启示：68 万小时嘈杂的网络音频，买来了干净基准永远给不了的稳健性。论文见 https://arxiv.org/abs/2212.04356。