开源项目推荐:AutoSub
AutoSub 是一个开源的命令行界面(CLI)应用程序,主要用于为视频文件生成字幕文件(SRT/VTT/TXT)。该项目主要使用 Python 编程语言开发。
项目基础介绍
AutoSub 利用 Mozilla 的 DeepSpeech 或 Coqui STT(Speech-to-Text)开源模型来执行语音识别任务。通过提取视频中的音频部分,并使用 pyAudioAnalysis 进行静音分割,该项目能够将音频分解为更小的片段,以便进行更高效的语音识别。最终生成的字幕文件会保存在指定的输出目录中。
核心功能
- 视频转音频:使用 FFMPEG 从视频文件中提取音频。
- 静音分割:通过 pyAudioAnalysis 将音频分割为多个小段,便于处理。
- 语音识别:利用 DeepSpeech 或 Coqui STT 模型对音频片段进行语音识别。
- 生成字幕:将识别结果生成 SRT、VTT 或 TXT 格式的字幕文件。
- 格式自定义:允许用户指定生成字幕的格式。
- 时长自定义:允许用户自定义字幕显示的最大时长。
最近更新的功能
根据项目的最新更新,以下是最近加入的功能:
- 模型和评分器的版本控制:用户现在可以在运行时通过命令行参数指定模型和评分器的版本,以便于使用不同版本的模型。
- GPU 加速选项:通过 Docker 容器支持 GPU 加速,以提高处理速度。
- 命令行参数增强:增加了更多命令行参数,以提供更灵活的定制选项。
AutoSub 项目的开发活跃,社区响应积极,为视频字幕生成提供了一个强大的开源解决方案。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考