Whispering Tiger 开源项目使用教程

Whispering Tiger 开源项目使用教程

whispering Whispering Tiger - OpenAI's whisper with OSC and Websocket support. Allowing live transcription / translation in VRChat and Overlays in most Streaming Applications 项目地址: https://gitcode.com/gh_mirrors/whi/whispering

1. 项目介绍

Whispering Tiger 是一个免费且开源的工具,旨在为音频流或游戏内图像提供实时转录和翻译功能。它支持通过 OSC 和 Websocket 将转录或翻译结果输出到网页浏览器,适用于 VRChat 和大多数流媒体应用程序(如 OBS、vMix、XSplit 等)。Whispering Tiger 完全在本地运行,下载 AI 模型后无需互联网连接即可使用。

主要功能

  • 语音识别、翻译和转录:支持 OpenAI 的 Whisper、Meta 的 Seamless M4T、Microsoft 的 Speech T5 等多种模型。
  • 文本翻译:支持 LID(语言识别)、NLLB-200、M2M-100 等多种翻译模型。
  • 光学字符识别 (OCR):支持 EasyOCR,可捕捉游戏图像并翻译游戏内文本。
  • 文本转语音 (TTS):支持 Silero TTS。
  • 语音活动检测 (VAD):支持 Silero-VAD。
  • 语音转换 (RVC):支持 RVC 插件,可将语音转换为音频文件中的语音或从文本转语音中提取的语音。
  • 大型语言模型 (LLM):支持 FLAN-T5、GPT-J、Bloomz 等模型,用于文本续写和自动回答生成。

2. 项目快速启动

2.1 下载 Whispering Tiger UI

首先,下载最新的 Whispering Tiger UI 应用程序,该应用程序可以帮助你保持 Whispering Tiger 版本的更新,并更轻松地管理设置。

2.2 安装 CUDA 以加速 GPU

推荐安装 CUDA 以加速 GPU 处理,提升性能。

2.3 解压文件

将下载的文件解压到一个有足够空间的驱动器中(下载中等大小的 Whisper 模型和 NLLB-200 翻译模型后,可能需要占用高达 20 GB 的空间)。

2.4 运行启动脚本

使用 *.bat 文件启动 Whispering Tiger。你可以编辑或复制现有的 start-*.bat 文件,并在任何文本编辑器中编辑参数以自定义命令行标志。例如,start-transcribe-mic.bat 会尝试使用默认麦克风,是一个不错的起点。

start-transcribe-mic.bat

3. 应用案例和最佳实践

3.1 VRChat 中的实时转录和翻译

Whispering Tiger 可以在 VRChat 中实时转录和翻译语音,帮助用户更好地理解和参与游戏内的对话。通过 OSC 协议,Whispering Tiger 可以将转录和翻译结果发送到 VRChat,实现无缝集成。

3.2 流媒体应用程序中的实时字幕

在流媒体应用程序(如 OBS、vMix、XSplit 等)中,Whispering Tiger 可以实时生成字幕,提升观众的观看体验。通过 Websocket 协议,Whispering Tiger 可以将字幕数据发送到流媒体应用程序,实现实时字幕显示。

3.3 游戏内文本翻译

通过 OCR 功能,Whispering Tiger 可以捕捉游戏内的图像,并翻译游戏内的文本。这对于多语言玩家来说非常有用,可以帮助他们更好地理解游戏内容。

4. 典型生态项目

4.1 OpenAI Whisper

Whispering Tiger 的核心功能之一是使用 OpenAI 的 Whisper 模型进行语音识别。Whisper 是一个强大的语音识别模型,支持多种语言。

4.2 Meta Seamless M4T

Seamless M4T 是 Meta 开发的多模态翻译模型,支持多种语言的语音和文本翻译。Whispering Tiger 集成了 Seamless M4T,提供了高质量的翻译功能。

4.3 Microsoft Speech T5

Speech T5 是微软开发的语音识别模型,主要支持英语。Whispering Tiger 集成了 Speech T5,提供了高精度的英语语音识别功能。

4.4 NVIDIA NeMo Canary

NeMo Canary 是 NVIDIA 开发的多语言语音识别模型,支持英语、西班牙语、德语和法语。Whispering Tiger 集成了 NeMo Canary,提供了多语言语音识别功能。

通过这些生态项目的集成,Whispering Tiger 提供了强大的语音识别、翻译和转录功能,适用于多种应用场景。

whispering Whispering Tiger - OpenAI's whisper with OSC and Websocket support. Allowing live transcription / translation in VRChat and Overlays in most Streaming Applications 项目地址: https://gitcode.com/gh_mirrors/whi/whispering

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

咎旗盼Jewel

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值