使用开源 Whisper 视频转文字

Whisper 是 OpenAI 开源的语音到文字的模型, 支持多语言,Whisper 模型是基于 Transformer 架构,音频输入、文字输出,具体架构如下图。

在这里插入图片描述
Whisper 支持多种参数,模型的文档中说中等尺寸的模型不支持多语言,我测试的结果是支持中文的。
在这里插入图片描述
不同模型的下载地址,测试我使用了 Medium 和 Large 尺寸,模型文件已经上传,链接在文末。


_MODELS = {
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c63
### 开源文字视频工具 目前,开源社区中存在多个能够将文字换为视频的工具和项目,这些工具结合了自然语言处理、语音合成以及视频生成技术,为用户提供了从文本到视频内容的完整生成流程。以下是一些值得关注的开源项目: #### 1. **Text to Video using TTS and Video Generation Pipelines** 一些项目通过将文字语音(TTS)与视频生成技术结合,实现从纯文本到带语音解说视频的自动化流程。例如,使用如 **EmotiVoice** 这类高质量的文本语音引擎生成语音文件,再利用 **FFmpeg** 进行音视频合成,最终生成带有语音旁白的视频内容。这种组合方式在内容创作、教育视频制作中具有广泛应用[^3]。 #### 2. **Open-Chat-Video-Editor** 这是一个开源的短视频生成和编辑工具,支持通过文本生成视频内容。它不仅提供了视频编辑功能,还集成了文本驱动的视频生成能力,特别适用于短视频平台如抖音(TikTok)的内容创作。该项目基于 Vue3、Vite5 和 Pinia 构建,具备良好的移动端兼容性和流畅的用户体验。虽然其主要功能偏向视频编辑,但结合文本驱动的视频生成插件后,可以实现从文字视频的自动化生成[^4]。 #### 3. **AI-Powered Text to Video Frameworks** 在更高级的场景中,开发者可以使用 Hugging Face Transformers 等自然语言处理库生成文本描述,再结合图像生成模型(如 Stable Diffusion)和视频合成工具生成动态视频内容。这种框架虽然不是专门的文字视频工具,但通过模块化组合,可以构建出完整的文本驱动视频生成系统。Hugging Face 提供了大量预训练模型,支持文本生成、问答系统等任务,为构建此类系统提供了坚实基础[^2]。 #### 4. **Custom Solutions with FFmpeg and TTS Engines** 对于需要高度定制化的用户,可以采用 **FFmpeg** 与 **Vosk/Whisper** 等语音识别工具结合的方式,先将文本为语音,再将语音与图像或动画合成生成视频。这种方式适合开发者或内容创作者根据具体需求进行深度定制,例如制作带旁白的幻灯片视频、自动化教程视频等[^1]。 ### 示例代码:使用 FFmpeg 合成语音与图像生成视频 以下是一个简单的示例,展示如何使用 FFmpeg 将语音文件与图像合成视频: ```bash # 生成语音文件(假设使用 EmotiVoice 生成语音) # emotivoice --text "Hello World" --output audio.wav # 使用 FFmpeg 将语音与图像合成视频 ffmpeg -loop 1 -i image.jpg -i audio.wav -c:v libx264 -c:a aac -strict experimental -b:a 192k -shortest output_video.mp4 ``` 该脚本将一张静态图片与语音文件合成,生成一个带旁白的视频文件。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值