视频-音频-文字_视频-音频-文字python-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_38650447/article/details/103795859

视频-音频

第一步，安装ffmpy3库。

pip install ffmpy3

第二步，下载FFmpeg。

去官网下载FFmpeg，根据自身电脑版本下载相应安装包。

http://ffmpeg.org/download.html

解压ffmpeg文件，将ffmpeg文件中的可执行文件ffmpeg.exe复制到当前项目文件目录下。

第三步，运行以下代码生成wav文件。

from ffmpy3 import FFmpeg

changefile = r'123.mp4'   #后缀不需要MP4
outputfile = r'123.wav'  #后缀一定要wav
ff = FFmpeg(
    inputs={changefile: None},
    outputs={outputfile: '-vn -ar 44100 -ac 2 -ab 192 -f wav'}
)
print(ff.cmd)
ff.run()

音频-文字

第一步，申请IBM账号。可以参考这篇博客。

https://blog.youkuaiyun.com/weixin_34302561/article/details/89696860

注意：现在申请完之后，可能不会出现username和password，而是会出现API 密钥和URL。

第二步，安装speech_recognition库。

pip install speech_recognition

第三步，运行以下代码生成txt文件。

import speech_recognition as sr

r = sr.Recognizer()
with sr.WavFile("123.wav") as source:  # 请把引号内改成你自己的音频文件路径
    audio = r.record(source)

    IBM_USERNAME = "apikey"
    IBM_PASSWORD = 'yourapikey' #输入自己申请的apikey

    text = r.recognize_ibm(audio, username=IBM_USERNAME, password=IBM_PASSWORD, language='en-US')

    with open('data.txt', 'w') as f:  # 设置文件对象
        f.write(text)
    print(text)