实现流程需要使用以下的工具。
1.python,需要自行安装,
2.python的音视频处理库moviepy安装
pip install moviepy
3.Whisper语音识别,在我之前的文章中有:Whisper语音识别安装教程。
4.文字翻译,我这里使用百度翻译。
步骤一,提取视频中的音频。
首先,需要从视频中提取音频。使用python的moviepy库。
from moviepy.editor import AudioFileClip
video = "video.mp4"#假如有一个视频文件
audio = "audio.mp3"#分离出来的音频文件
# 提取音频
clip = AudioFileClip(video)
clip.write_audiofile(audio)
clip.close()
需要注意,分离出来的音频可能会存在背景音,没有背景音的可以直接识别音频。
这里可以使用UVR5人声伴奏分离,分离出人声。
UVR5百度网盘下载链接:链接:https://pan.baidu.com/s/1jBcTr3MTyZt12QIU4JryKg?pwd=znuu 提取码:znuu
UVR5的b站使用教程:最强伴奏人声提取工具 - 开源免费,一键安装,直接使用!| Ultimate Vocal Remover