Openai 上线语音模型whisper-large-v3-turbo
在本文中,我们将介绍 whisper-large-v3-turbo 以及 whisper-web(一个直接在浏览器中进行ML语音识别的开源项目)。
尽管近年来出现了许多音频和多模态模型,但Whisper 仍是生产级自动语音识别(ASR)的首选。
Whisper 是一种最先进的自动语音识别 (ASR) 和语音翻译模型,由 OpenAI 的 Alec Radford 等人在论文《 通过大规模弱监督实现稳健语音识别》中提出。
Whisper 模型有两种风格:纯英语和多语言。纯英语模型接受英语语音识别任务的训练。多语言模型同时进行多语言语音识别和语音翻译训练。对于语音识别,该模型会预测与音频相同语言的转录。对于语音翻译,该模型会预测转录为与音频不同的语言。
Whisper 检查点有五种不同型号尺寸的配置。最小的四种语言有纯英语和多语言版本。最大的检查站仅支持多种语言。Hugging Face Hub上提供了所有十个预先训练的检查点。下表总结了检查点: