VideoCaptioner是一款基于大语言模型的智能视频字幕处理工具,能够一站式完成字幕生成、断句优化、智能校正和多语言翻译,让您轻松制作专业级的视频字幕。
核心技术特色
AI智能字幕引擎
- 大语言模型驱动:采用GPT-4o-mini、Gemini-2.0-flash等先进模型
- 本地语音识别:WhisperCpp与fasterWhisper双引擎支持
- 多格式兼容:支持SRT、ASS、VTT等主流字幕格式
性能加速技术
- CUDA加速:fasterWhisper提供GPU加速支持
- 高效编码:ffmpeg优化的视频合成管线
环境准备与安装
系统要求
- 操作系统:Windows 10/11 (64位)、Ubuntu 20.04+、Debian 11+、Fedora 35+
- Python环境:Python 3.10或更高版本(源码运行时需要)
- 内存要求:建议4GB以上(使用本地Whisper需要8GB+)
快速安装步骤
获取项目源码
git clone https://gitcode.com/gh_mirrors/vi/VideoCaptioner.git
cd VideoCaptioner
安装Python依赖
pip install -r requirements.txt
启动应用程序
python main.py
核心功能配置详解
LLM API配置
LLM大模型用于字幕断句、优化和翻译。软件内置了基础模型,但配置自己的API可以获得更好的效果。
打开设置 → LLM配置,选择以下任一服务:
| 服务商 | 特点 | 推荐模型 |
|---|---|---|
| OpenAI | 质量最好 | gpt-4o-mini (经济), gpt-4o (高质量) |
| DeepSeek | 性价比高 | deepseek-chat |
| SiliconCloud | 国内可用,并发较低 | Qwen/Qwen2.5-72B-Instruct |
推荐配置方式:
- Base URL:
https://api.videocaptioner.cn/v1 - API Key: 注册后在个人中心获取
推荐模型选择:
- 高质量:gemini-2.0-flash-exp、claude-sonnet-4.5
- 经济实惠:gpt-4o-mini、gemini-2.0-flash-exp
语音识别配置
打开设置 → 转录配置,选择语音识别引擎:
| 引擎 | 支持语言 | 运行方式 | 推荐场景 |
|---|---|---|---|
| FasterWhisper ⭐ | 99种语言 | 本地 | 最推荐,准确度高,支持GPU加速 |
| B接口 | 中英文 | 在线 | 快速测试,无需下载模型 |
| J接口 | 中英文 | 在线 | 备用选项 |
| WhisperCpp | 99种语言 | 本地 | 轻量级本地方案 |
推荐配置方案:
- 中文视频:FasterWhisper + Medium模型或以上
- 英文视频:FasterWhisper + Small模型即可
- 其他语言:FasterWhisper + Large-v2模型
首次使用需要在软件内下载模型,国内网络可直接下载。
翻译服务配置
如果需要翻译字幕,打开设置 → 翻译配置:
| 翻译服务 | 特点 | 推荐场景 |
|---|---|---|
| LLM翻译 ⭐ | 质量最好,理解上下文 | 追求翻译质量 |
| Bing翻译 | 速度快,免费 | 快速翻译 |
| Google翻译 | 速度快,需要网络优化 | 英语翻译 |
| DeepLX | 质量好,需要自建服务 | 专业翻译 |
本地Whisper模型选择
| 模型 | 磁盘空间 | 内存占用 | 说明 |
|---|---|---|---|
| Tiny | 75 MiB | ~273 MB | 转录很一般,仅用于测试 |
| Small | 466 MiB | ~852 MB | 英文识别效果已经不错 |
| Medium | 1.5 GiB | ~2.1 GB | 中文识别建议至少使用此版本 |
| Large-v2 ⭐ | 2.9 GiB | ~3.9 GB | 效果好,配置允许情况推荐使用 |
| Large-v3 | 2.9 GiB | ~3.9 GB | 社区反馈可能会出现幻觉/字幕重复问题 |
推荐使用Large-v2模型,稳定且质量较好。
操作流程指南
全流程处理
这是最简单的方式,一键完成所有步骤:
- 在主界面点击**"任务创建"**标签
- 拖拽视频文件到窗口,或点击选择文件
- 点击**"开始全流程处理"**按钮
- 等待处理完成,输出文件保存在work-dir/目录
全流程处理步骤:
- 语音识别转录
- 字幕智能断句(可选)
- 字幕优化(可选)
- 字幕翻译(可选)
- 视频合成
分步处理详解
步骤1:语音识别转录
- 切换到**"语音转录"**标签
- 选择视频或音频文件
- 配置转录参数:
- 转录语言(自动检测或手动指定)
- VAD方法(建议保持默认)
- 是否启用音频分离(嘈杂环境推荐)
- 点击**"开始转录"**
- 转录完成后会生成字幕文件
步骤2:字幕优化与翻译
- 切换到**"字幕优化与翻译"**标签
- 加载字幕文件(自动加载或手动选择)
- 配置处理选项:
- 智能断句:重新分段,阅读更流畅
- 字幕校正:修正错别字、优化格式
- 字幕翻译:翻译为目标语言
- (可选)填写文稿提示,提升准确度
- 点击**"开始处理"**
- 处理完成后可以实时预览和编辑
步骤3:字幕视频合成
- 切换到**"字幕视频合成"**标签
- 选择字幕样式(科普风、新闻风等)
- 选择合成方式:
- 硬字幕:烧录到视频中
- 软字幕:内嵌字幕轨道(需要播放器支持)
- 点击**"开始合成"**
- 输出视频保存在work-dir/目录
实用技巧与优化
提升字幕质量
- ✅ 使用FasterWhisper Large-v2模型
- ✅ 启用VAD过滤,减少幻觉
- ✅ 在嘈杂环境中启用音频分离
- ✅ 使用智能断句(语义分段)
- ✅ 填写文稿提示(术语表、原文稿等)
加快处理速度
- ✅ 使用在线ASR(B接口/J接口)跳过模型下载
- ✅ 提高LLM并发线程数(如果API支持)
- ✅ 使用软字幕合成(速度极快)
- ✅ 关闭不需要的功能(如翻译、优化)
批量处理
如果需要处理多个视频:
- 切换到**"批量处理"**标签
- 选择处理类型(批量转录/字幕处理/视频合成)
- 添加视频文件到队列
- 点击**"开始批量处理"**
常见问题解决方案
转录时出现幻觉或重复
- 启用VAD过滤
- 更换更大的模型(如Medium → Large)
- 尝试Large-v2而不是Large-v3
- 在嘈杂环境中启用音频分离
LLM请求失败
- 检查API Key是否正确
- 检查Base URL是否正确
- 降低线程数(某些服务商限制并发)
- 检查网络连接
- 查看日志文件获取详细错误信息
字幕时间轴不准确
- 使用FasterWhisper(时间轴最准确)
- 启用智能断句时使用语义分段模式
- 手动在字幕编辑界面调整
进阶功能配置
文稿匹配功能
在"字幕优化与翻译"页面,包含"文稿匹配"选项,支持以下内容辅助校正字幕和翻译:
| 类型 | 说明 | 填写示例 |
|---|---|---|
| 术语表 | 专业术语、人名、特定词语的修正对照表 | 机器学习->Machine Learning 马斯克->Elon Musk |
| 原字幕文稿 | 视频的原有文稿或相关内容 | 完整的演讲稿、课程讲义等 |
| 修正要求 | 内容相关的具体修正要求 | 统一人称代词、规范专业术语等 |
使用建议:
- 如果需要文稿进行字幕优化辅助,全流程处理时先填写文稿信息,再进行任务处理
- 使用上下文参数量不高的小型LLM模型时,建议控制文稿内容在1千字内
Cookie配置
如果使用URL下载功能时遇到以下情况:
- 下载视频网站需要登录信息才可以下载
- 只能下载较低分辨率的视频
- 网络条件较差时需要验证
请参考Cookie配置说明获取Cookie信息,并将cookies.txt文件放置到软件安装目录的AppData目录下,即可正常下载高质量视频。
性能测试结果
在实际测试中,全流程处理一个14分钟1080P的英文视频,调用本地Whisper模型进行语音识别,使用大模型优化和翻译为中文,总共消耗时间约4分钟。模型优化和翻译消耗费用极低,以官方价格计算不足0.01元。
现在您已经掌握了VideoCaptioner的完整配置方法,可以开始享受高效专业的视频字幕处理体验!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考










