Whisper 是 OpenAI 开源的语音到文字的模型, 支持多语言,Whisper 模型是基于 Transformer 架构,音频输入、文字输出,具体架构如下图。

Whisper 支持多种参数,模型的文档中说中等尺寸的模型不支持多语言,我测试的结果是支持中文的。

不同模型的下载地址,测试我使用了 Medium 和 Large 尺寸,模型文件已经上传,链接在文末。
_MODELS = {
"tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
"tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
"base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
"base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c63

最低0.47元/天 解锁文章
319

被折叠的 条评论
为什么被折叠?



