免费语音转字幕功能介绍

部署运行你感兴趣的模型镜像

免费语音转字幕功能介绍

语音转字幕

  • 免费的语音转字幕功能介绍,基于百度语音技术,识别率极高 无需注册 无语音时长限制 无文件大小限制 可在线对音频/视频文件进行自动语音识别
准备音频/视频文件
  • 准备需要进行语音识别的音频/视频文件,格式支持wav m4a mp3 mka aac mp4 mov等

  • 推荐使用wav格式,采样率不低于16000

上传音频/视频文件到网站进行处理
在线编辑字幕
  • 网站对音频/视频文件进行语音自动识别后,有极个别的同音字等识别错误,可在线进行字幕编辑,编辑好后,再下载,点下载时才会保存,如果编辑完成后没有点下载,是不会保存的

  • 进入网站首页: https://thinktothings.com,点击任务结果按钮,可对已上传的音频/视频(状态为已完成)进行字幕编辑

下载字幕
  • 进入网站首页: https://thinktothings.com,点击任务结果按钮,可对已上传的音频/视频(状态为已完成)字幕下载

  • 或在字幕编辑页面,编辑好后直接进行字幕下载

双语字幕自动生成

  • 上传语音/视频文件翻译完成
  • 任务结果页面 --> 选择字幕编辑 --> 进入字幕编辑页面
  • 语言翻译 --> 从28种语言种选择需要翻译的语言 --> 选中双语/单语 复选框

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实时语音转文字

  • 可用电脑麦克风进行语音录制,并实时自动识别语音为文字

  • 进入网站首页: https://thinktothings.com

  • 找到实时语音识别

点击开始录制
  • 自动调用电脑麦克风进行录制

视频录制

音频/视频/屏幕录制

  • 进入网站首页: https://thinktothings.com

  • 菜单 -> 工具 -> 音频/视频/屏幕 录制

  • 可进行视频/音频/屏幕录制,并保存到本地

联系我们

 微信: thinktothings
 邮箱: thinktothings@163.com

示例

免费在线录音自动生成字幕介绍

https://www.bilibili.com/video/av51421703

免费在线录屏自动生成字幕介绍

https://www.bilibili.com/video/av51456675

双语字幕自动生成

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

<think>我们正在讨论PotPlayer的实时语音字幕功能。根据引用[1]和引用[2],我们知道PotPlayer可以通过外部引擎(如Faster-Whisper)来实现实时语音字幕。用户的需求是如何在PotPlayer中设置或启用这个功能。 步骤概述: 1. 确保已安装必要的软件:Python、Faster-Whisper库、CUDA(如果需要GPU加速)等。 2. 下载所需的Whisper模型(如small, medium, large等)。 3. 创建一个批处理文件(.bat)来调用Faster-Whisper进行实时字幕生成。 4. 在PotPlayer中配置外部字幕引擎,指向这个批处理文件。 详细步骤: 第一步:安装Faster-Whisper 确保已安装Python(建议3.8以上版本),然后使用pip安装: ``` pip install faster-whisper ``` 第二步:下载模型 可以选择一个模型,例如small(速度快,但精度较低)或medium(平衡速度和精度)。模型会在第一次运行时自动下载,但为了确保稳定,我们可以提前下载。模型存储位置通常在用户目录下的.cache文件夹,但我们也可以指定目录。 第三步:创建批处理脚本 我们需要一个批处理文件来运行Faster-Whisper,并将生成的实时字幕输出到PotPlayer。 示例脚本(命名为whisper_realtime.bat): ```batch @echo off set PYTHONIOENCODING=utf-8 set MODEL=small // 模型大小,根据自己需要选择 set LANGUAGE=zh // 设置语言,例如中文 python -c "from faster_whisper import WhisperModel; import sys; model = WhisperModel('%MODEL%', device='auto', compute_type='int8'); segments, info = model.transcribe(sys.argv[1], language='%LANGUAGE%', beam_size=5); print('['); for segment in segments: print('{\"start\":%.1f, \"end\":%.1f, \"text\":\"%s\"},' % (segment.start, segment.end, segment.text.replace('\"', '\\\"'))); print(']')" ``` 注意:这个脚本会输出一个JSON格式的字幕信息,PotPlayer可以通过这个输出来显示实时字幕。但是,PotPlayer要求特定的输出格式。实际上,PotPlayer的实时字幕功能需要接收SRT格式或者类似的时间轴文本。因此,我们需要调整输出格式。 然而,根据引用[2]中的B站视频链接,我们可以参考已有的配置方法。在引用[2]中,有一个链接指向了Github项目:https://github.com/ycyy/faster-whisper-webui,这个项目可能提供了与PotPlayer集成的接口。 但是,我们也可以尝试另一种方法:使用一个Python脚本持续输出字幕,并让PotPlayer读取。 实际上,PotPlayer支持通过外部引擎实时生成字幕。在设置中,我们可以指定一个命令行程序,该程序接收音频文件名作为参数,并输出字幕流(通常是SRT格式)。 因此,我们需要修改批处理脚本,使其输出SRT格式。以下是一个输出SRT格式的示例: 创建一个Python脚本(例如:whisper_realtime.py): ```python import sys from faster_whisper import WhisperModel model_size = "small" language = "zh" model = WhisperModel(model_size, device="cuda", compute_type="float16") # 如果使用CPU,device="cpu" # 从命令行参数获取音频文件路径 audio_file = sys.argv[1] segments, info = model.transcribe(audio_file, beam_size=5, language=language) # 输出SRT格式 index = 1 for segment in segments: start = segment.start end = segment.end text = segment.text.strip().replace('\n', ' ') # 格式化时间 print(f"{index}") print(f"{int(start//3600):02d}:{int((start%3600)//60):02d}:{int(start%60):02d},{int((start*1000)%1000):03d} --> {int(end//3600):02d}:{int((end%3600)//60):02d}:{int(end%60):02d},{int((end*1000)%1000):03d}") print(text) print() index += 1 ``` 然后,在批处理文件中调用这个Python脚本: ```batch @echo off python D:\path\to\whisper_realtime.py %1 ``` 注意:这个脚本会等待整个音频文件写完成才会输出所有字幕,但我们需要实时字幕,即一边播放一边生成字幕。因此,我们需要使用流式模式。 但是,faster-whisper目前不支持真正的流式传输(即实时分段输出)。不过,我们可以使用`vad_filter=True`参数来开启语音活动检测,这样可以在说话停顿处输出分段。但这仍然不是真正的实时(有延迟)。 为了实现更低的延迟,我们可以尝试使用`without_timestamps`参数并设置较小的段,但这样可能会影响准确性。 另一种方案是使用whisper.cpp或者OpenAI的Whisper的实时实现。但这里我们专注于faster-whisper。 根据faster-whisper的文档,我们可以使用`vad_filter`和`vad_parameters`来减少延迟。同时,我们可以设置`chunk_length`(例如30秒)并循环处理,这样就能在播放过程中逐步输出字幕。 但是,由于PotPlayer要求外部引擎在启动后持续输出字幕,我们需要在音频播放过程中不断生成字幕。因此,我们需要一个持续运行的脚本,不断输出新的字幕行。 修改Python脚本以实现流式输出(每句话说完就输出): ```python import sys import time from faster_whisper import WhisperModel model_size = "small" language = "zh" model = WhisperModel(model_size, device="cuda", compute_type="float16") audio_file = sys.argv[1] # 使用流式录,但faster-whisper本身不支持流式音频输入,所以我们需要将整个文件传入,但使用vad_filter来尽早分段 segments, info = model.transcribe( audio_file, beam_size=5, language=language, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), # 设置静音分段阈值 ) # 输出SRT格式,每次生成一个分段就输出 index = 1 for segment in segments: start = segment.start end = segment.end text = segment.text.strip().replace('\n', ' ') # 立即输出当前分段(一行) print(f"{index}") print(f"{int(start//3600):02d}:{int((start%3600)//60):02d}:{int(start%60):02d},{int((start*1000)%1000):03d} --> {int(end//3600):02d}:{int((end%3600)//60):02d}:{int(end%60):02d},{int((end*1000)%1000):03d}") print(text) print() # 空行表示分段结束 index += 1 # 刷新输出缓冲区,确保PotPlayer立即收到 sys.stdout.flush() ``` 这样,每识别出一段,就会立即输出。但注意,这仍然不是真正的实时(从说话开始到字幕出现会有延迟),因为模型需要等待一个句子结束(静音间隔)才能识别。 第四步:配置PotPlayer 1. 打开PotPlayer,右键点击主界面 -> 选项(或按F5)。 2. 在参数选项窗口中,选择“字幕” -> “实时字幕设置”。 3. 在右侧,勾选“使用实时字幕”。 4. 在“引擎”中选择“外部引擎”。 5. 在“命令”中,输入我们创建的批处理文件的路径,例如:`D:\path\to\whisper_realtime.bat`。 6. 在“参数”中,输入:`"%1"`(包括引号,确保路径中有空格时也能正确处理)。 7. 设置输出编码为UTF-8(如果字幕出现乱码,可能需要调整)。 8. 设置字幕语言(如中文)。 9. 点击“确定”保存。 第五步:测试 播放一个视频或音频文件,PotPlayer会自动调用外部引擎生成字幕并显示。 注意事项: - 第一次运行可能需要下载模型,请确保网络畅通。 - 使用GPU加速需要安装CUDA和cuDNN,并确保faster-whisper能够使用GPU。 - 如果遇到性能问题(如延迟过高),可以尝试使用更小的模型(如`tiny`或`base`)。 - 实时字幕生成对硬件要求较高,请确保计算机性能足够。 引用说明: 根据引用[2],我们可以参考B站视频教程(BV1V46VYPEGm和BV1MZ421W7G3)来了解配置过程[^2]。另外,faster-whisper的模型可以在Hugging Face上下载[^2]。 相关问题: §§相关问题§§ 1. 如何解决PotPlayer实时字幕的延迟问题? 2. 如何调整实时字幕的字体和位置? 3. 如何为PotPlayer的实时字幕功能使用GPU加速?</think>### 在PotPlayer中配置实时语音字幕功能(Faster-Whisper引擎) 以下是手动配置PotPlayer实时语音字幕的完整步骤: --- #### 第一步:安装必要组件 1. **安装Python环境**: - 从[Python官网](https://www.python.org/downloads/)下载并安装Python 3.8+ - 安装时勾选 **"Add Python to PATH"** 2. **安装Faster-Whisper**: ```bash pip install faster-whisper ``` 3. **下载预训练模型**(推荐small模型): ```bash # 创建模型目录 mkdir C:\whisper-models\small # 下载核心文件 curl -o C:\whisper-models\small\config.json https://huggingface.co/guillaumekln/faster-whisper-small/resolve/main/config.json curl -o C:\whisper-models\small\model.bin https://huggingface.co/guillaumekln/faster-whisper-small/resolve/main/model.bin curl -o C:\whisper-models\small\tokenizer.json https://huggingface.co/guillaumekln/faster-whisper-small/resolve/main/tokenizer.json ``` --- #### 第二步:创建字幕生成脚本 1. 新建 `whisper_realtime.py` 文件: ```python import sys from faster_whisper import WhisperModel model = WhisperModel("small", device="cpu", compute_type="int8", download_root="C:\\whisper-models") def generate_subtitles(audio_path): segments, _ = model.transcribe(audio_path, beam_size=5, language="zh") for segment in segments: print(f"[{segment.start:.1f}->{segment.end:.1f}] {segment.text.strip()}") sys.stdout.flush() # 实时输出 if __name__ == "__main__": generate_subtitles(sys.argv[1]) ``` 2. 创建批处理文件 `run_whisper.bat`: ```batch @echo off python C:\path\to\whisper_realtime.py "%1" ``` --- #### 第三步:配置PotPlayer 1. 打开PotPlayer → 右键 → 选项(F5) 2. 导航到:**字幕** → **实时字幕设置** 3. 配置外部引擎: ``` [√] 使用实时字幕 引擎类型:外部引擎 命令:cmd /c "C:\path\to\run_whisper.bat" 参数:"%1" 输出编码:UTF-8 ``` 4. 设置字幕显示: ``` [√] 播放时自动生成字幕 字幕位置:屏幕底部 字体大小:24 ``` 5. 点击 **应用** → **确定**[^1][^2] --- #### 第四步:测试与优化 1. **测试功能**: - 播放任意视频文件 - 按 `Ctrl+Tab` 显示/隐藏实时字幕 - 按 `Tab` 键调整字幕同步 2. **性能优化**: ```python # GPU加速(需安装CUDA Toolkit) model = WhisperModel("small", device="cuda", compute_type="float16") # 多线程处理(CPU模式) model.transcribe(..., thread_count=4) ``` 3. **常见问题解决**: - **字幕延迟**:改用更小模型(如 `tiny`) - **乱码问题**:确保脚本输出UTF-8编码 - **缺少DLL**:安装 [VC++运行库](https://aka.ms/vs/17/release/vc_redist.x64.exe) --- ### 替代方案:使用预编译插件 1. 下载 [WhisperDesktop](https://github.com/Const-me/Whisper/releases) 2. 解压到 PotPlayer 安装目录的 `Extensions` 文件夹 3. 在PotPlayer中: ``` 滤镜 → 音频处理 → 加载 WhisperDesktop ``` 4. 选择模型文件(`.bin`)并设置语言[^2] > **提示**:实时字幕功能需要较强的CPU性能,推荐使用4核以上处理器。对于高清视频,建议提前提取音频轨减少负载[^1]。 ---
评论 4
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值