项目概述
VideoCaptioner是一款基于大语言模型的智能字幕助手,能够实现视频字幕生成、断句、校正、翻译等全流程处理。该工具操作简单且无需高配置,支持网络调用和本地离线两种方式进行语音识别,让字幕制作变得轻松高效。
核心功能特点
- 智能语音识别:支持WhisperCpp和fasterWhisper双引擎
- AI智能校正:大语言模型自动优化字幕流畅度
- 多语言翻译:集成主流翻译服务,支持全球语言
- 可视化界面:友好的操作界面
- 专业格式输出:多种字幕样式模板任选选择
软件界面预览
快速开始
环境准备
- Windows/Linux系统
- Python 3.x环境
- 稳定的网络连接
安装步骤
-
获取项目代码
git clone https://gitcode.com/gh_mirrors/vi/VideoCaptioner.git cd VideoCaptioner -
安装依赖包
pip install -r requirements.txt -
启动应用
python main.py
详细配置说明
LLM API配置
LLM大模型用于字幕断句、字幕优化以及字幕翻译。以下是推荐的配置选项:
| 配置项 | 说明 |
|---|---|
| SiliconCloud | 并发较低,建议线程设置为5以下 |
| DeepSeek | 建议使用deepseek-v3模型 |
| 兼容API接口 | 支持其他服务商的API |
翻译服务配置
| 服务类型 | 适用场景 | 配置难度 |
|---|---|---|
| LLM大模型翻译 | 高质量翻译 | ⭐⭐ |
| DeepLx翻译 | 专业翻译 | ⭐⭐⭐ |
| 微软翻译 | 稳定性强 | ⭐ |
| 谷歌翻译 | 免费使用 | ⭐ |
推荐使用LLM大模型翻译,翻译质量最好。
语音识别接口
| 接口名称 | 支持语言 | 运行方式 | 说明 |
|---|---|---|---|
| B接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
| J接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
| WhisperCpp | 中文、日语、韩语、英文等99种语言 | 本地 | 需要下载转录模型 |
| fasterWhisper | 中文、英文等多99种语言 | 本地 | 支持CUDA,速度更快,转录准确 |
本地Whisper语音识别模型
| 模型 | 磁盘空间 | 内存占用 | 说明 |
|---|---|---|---|
| Tiny | 75 MiB | ~273 MB | 转录效果一般,仅用于测试 |
| Small | 466 MiB | ~852 MB | 英文识别效果已经不错 |
| Medium | 1.5 GiB | ~2.1 GB | 中文识别建议至少使用此版本 |
| Large-v2 | 2.9 GiB | ~3.9 GB | 效果好,配置允许情况推荐使用 |
推荐模型:Large-v2稳定且质量较好。
使用流程介绍
程序的处理流程如下:
语音识别转录 -> 字幕断句(可选) -> 字幕优化翻译(可选) -> 字幕视频合成
主要功能模块
多平台视频下载与处理
- 支持国内外主流视频平台
- 自动提取视频原有字幕处理
专业的语音识别引擎
- 提供多种接口在线识别
- 支持本地Whisper模型
字幕智能纠错
- 自动优化专业术语、代码片段和数学公式格式
- 上下文进行断句优化,提升阅读体验
高质量字幕翻译
- 结合上下文的智能翻译
- 通过Prompt指导大模型反思翻译,提升翻译质量
字幕样式调整
- 丰富的字幕样式模板
- 多种格式字幕视频
常见问题解答
Q: 为什么我的字幕生成速度很慢? A: 建议切换到fasterWhisper并启用CUDA加速
Q: 如何调整字幕样式? A: 在设置界面选择预设模板或自定义格式
Q: 支持哪些视频格式? A: 支持主流视频格式
项目目录结构
VideoCaptioner/
├── app/ # 应用程序主目录
├── docs/ # 文档目录
├── tests/ # 测试文件目录
├── main.py # 程序入口文件
└── requirements.txt # Python依赖列表
测试效果展示
全流程处理一个14分钟1080P的英文TED视频,调用本地Whisper模型进行语音识别,使用AI模型优化和翻译为中文,总共消耗时间约4分钟。
使用建议
- 字幕断句的质量对观看体验至关重要
- 在处理过程中,仅向大语言模型发送文本内容
- 在翻译环节采用"翻译-反思-翻译"方法论
- 处理在线视频链接时会自动下载视频字幕,节省操作时间
按照以上步骤配置和使用,您将能够轻松制作出专业水准的视频字幕。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考









