CrisperWhisper:实现精确逐字 speech-to-text 的强大工具

CrisperWhisper:实现精确逐字 speech-to-text 的强大工具

CrisperWhisper Verbatim Automatic Speech Recognition with improved word-level timestamps and filler detection CrisperWhisper 项目地址: https://gitcode.com/gh_mirrors/cr/CrisperWhisper

项目介绍

CrisperWhisper 是基于 OpenAI Whisper 的改进版本,它专为快速、精确且逐字的语音识别而设计。与原版的 Whisper 相比,CrisperWhisper 旨在转录每个说出的单词,包括停顿、口吃和犹豫等非流畅表达,从而实现更为逐字和详尽的转录效果。

项目技术分析

CrisperWhisper 通过对 Whisper 的改进,实现了以下技术特点:

  • 精确的时间戳:通过调整分词器和引入自定义注意力损失,即使在非流畅表达附近也能提供精确的时间戳。
  • 逐字转录:能够精确转录每个单词,包括“um”、“uh”等填充词。
  • 填充词检测:能够准确检测并转录填充词。
  • 减少幻觉:通过技术优化,减少了转录过程中的幻觉现象,提高了准确性。

项目及技术应用场景

CrisperWhisper 的应用场景广泛,包括但不限于:

  • 会议记录:能够详尽记录会议中的每一句话,包括非正式表达和犹豫部分。
  • 语音编辑:在音频剪辑和编辑中,精确的时间戳可以帮助快速定位和编辑特定的语音片段。
  • 教育研究:在教育研究中,可以分析学生的语言表达习惯,帮助改进教学策略。
  • 语言模型训练:为语言模型提供更加丰富的语料库,增强模型对非流畅表达的理解能力。

项目特点

核心功能

  • 精确时间戳:在非流畅表达和停顿处提供精确的时间戳。
  • 逐字转录:精确转录每个单词,包括填充词。
  • 填充词检测:准确识别并转录填充词。
  • 减少幻觉:减少转录过程中的幻觉现象,提高准确性。

性能概览

在多个数据集上的对比测试表明,CrisperWhisper 在逐字转录方面表现优于 Whisper Large v3,尤其是在 AMI 和 TED-LIUM 这样的数据集上。以下是一些性能指标:

  • AMI 数据集:CrisperWhisper 的 WER 为 8.72%,而 Whisper Large v3 为 16.01%。
  • LibriSpeech 数据集:CrisperWhisper 在清洁和其它子集上的 WER 分别为 1.74% 和 3.97%,而 Whisper Large v3 分别为 2.03% 和 3.91%。
  • 平均 WER:CrisperWhisper 为 6.66%,Whisper Large v3 为 7.7%。

在分割性能方面,CrisperWhisper 同样表现出色,尤其是在处理非流畅表达和停顿时。

使用方法

CrisperWhisper 的使用非常简单,只需按照以下步骤:

  1. 克隆仓库并创建 Python 环境。
  2. 安装所需的依赖。
  3. 使用提供的 API 或 Python 脚本来执行语音识别。

总结

CrisperWhisper 作为一款强大的语音识别工具,不仅提供了精确的时间戳和逐字转录功能,还通过减少转录幻觉,极大地提高了转录的准确性。无论是学术研究还是实际应用,CrisperWhisper 都是一个值得尝试的选择。立即体验 CrisperWhisper,提升您的语音识别能力。

CrisperWhisper Verbatim Automatic Speech Recognition with improved word-level timestamps and filler detection CrisperWhisper 项目地址: https://gitcode.com/gh_mirrors/cr/CrisperWhisper

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

### 使用 Google Speech-to-Text 实现实时语音转文字 Google Cloud Speech-to-Text API 提供了强大的实时语音识别功能,能够将流式的音频数据即时转换成文本[^1]。对于实现实时语音转文字的应用场景来说,这无疑是一个非常有用的工具。 要利用此特性,开发者可以通过 gRPC 或 RESTful 接口发送连续的音频片段给服务端,并接收逐字返回的结果。下面是一些具体的操作方法: #### 设置环境变量并安装依赖项 确保已配置好 Python 开发环境以及必要的库文件。首先需要激活虚拟环境(如果有的话),接着按照官方说明安装 `google-cloud-speech` 库和其他可能需要用到的支持包。 ```bash pip install --upgrade google-cloud-speech ``` #### 编写简单的客户端程序来测试实时传输 这里给出一段基于 Python 的简单例子用于展示如何连接至云端服务器并将麦克风输入作为源进行处理。 ```python import os from google.cloud import speech_v1p1beta1 as speech import pyaudio import wave def transcribe_streaming(): client = speech.SpeechClient() config = speech.RecognitionConfig( encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16, sample_rate_hertz=16000, language_code="en-US", ) streaming_config = speech.StreamingRecognitionConfig(config=config) p = pyaudio.PyAudio() stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=4096) requests = (speech.StreamingRecognizeRequest(audio_content=content) for content in iter(lambda: stream.read(4096), b'')) responses = client.streaming_recognize(streaming_config, requests) try: for response in responses: for result in response.results: print(f'Transcript: {result.alternatives[0].transcript}') except KeyboardInterrupt: pass stream.stop_stream() stream.close() p.terminate() if __name__ == "__main__": transcribe_streaming() ``` 上述代码展示了怎样创建一个持续监听本地麦克风输入并向 Google Cloud 发送请求的过程。每当有新的部分被成功解析出来之后就会立即打印到控制台上面去[^3]。 #### 配置认证信息 为了让应用程序正常工作,在运行之前还需要正确设置 GOOGLE_APPLICATION_CREDENTIALS 环境变量指向 JSON 格式的密钥文件路径。该操作可以在命令行终端完成: ```bash export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/service-account-file.json" ``` 这样就完成了整个流程介绍,现在应该可以根据自己的需求调整参数选项从而更好地适应特定的任务要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孙樱晶Red

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值