介绍
Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。
论文链接:https://arxiv.org/abs/2212.04356
github链接:https://github.com/openai/whisper
安装
Whisper主要是基于Pytorch实现,所以需要在安装有pytorch的环境中使用。
1、安装Whisper
pip install -U openai-whisper
或者
pip install git+https://github.com/openai/whisper.git
安装好之后,打开cmd界面,执行whisper,出现如下提示说明安装成功

2、安装FFmpeg
FFmpeg是一款音视频编解码工具。Whisper需要使用FFmpeg工具提取声音数据,所以需要安装配置FFmpeg。
参考博客:https://blog.youkuaiyun.com/weixin_45487348/article/details/130722161
安装好之后,,打开cmd界面,执行ffmpeg,出现如下提示说明安装成功


最低0.47元/天 解锁文章
7093





