使用开源 Whisper 视频转文字

最新推荐文章于 2025-10-23 08:31:23 发布

原创

最新推荐文章于 2025-10-23 08:31:23 发布 · 1.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#whisper #音视频 #深度学习

Whisper 是 OpenAI 开源的语音到文字的模型，支持多语言，Whisper 模型是基于 Transformer 架构，音频输入、文字输出，具体架构如下图。

在这里插入图片描述
Whisper 支持多种参数，模型的文档中说中等尺寸的模型不支持多语言，我测试的结果是支持中文的。

不同模型的下载地址，测试我使用了 Medium 和 Large 尺寸，模型文件已经上传，链接在文末。


_MODELS = {
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c63