CrisperWhisper：实现精确逐字 speech-to-text 的强大工具

孙樱晶Red

于 2025-04-08 09:26:22 发布

阅读量960

点赞数 18

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00345/article/details/147058804

CrisperWhisper：实现精确逐字 speech-to-text 的强大工具

CrisperWhisper Verbatim Automatic Speech Recognition with improved word-level timestamps and filler detection 项目地址: https://gitcode.com/gh_mirrors/cr/CrisperWhisper

项目介绍

CrisperWhisper 是基于 OpenAI Whisper 的改进版本，它专为快速、精确且逐字的语音识别而设计。与原版的 Whisper 相比，CrisperWhisper 旨在转录每个说出的单词，包括停顿、口吃和犹豫等非流畅表达，从而实现更为逐字和详尽的转录效果。

项目技术分析

CrisperWhisper 通过对 Whisper 的改进，实现了以下技术特点：

精确的时间戳：通过调整分词器和引入自定义注意力损失，即使在非流畅表达附近也能提供精确的时间戳。
逐字转录：能够精确转录每个单词，包括“um”、“uh”等填充词。
填充词检测：能够准确检测并转录填充词。
减少幻觉：通过技术优化，减少了转录过程中的幻觉现象，提高了准确性。

项目及技术应用场景

CrisperWhisper 的应用场景广泛，包括但不限于：

会议记录：能够详尽记录会议中的每一句话，包括非正式表达和犹豫部分。
语音编辑：在音频剪辑和编辑中，精确的时间戳可以帮助快速定位和编辑特定的语音片段。
教育研究：在教育研究中，可以分析学生的语言表达习惯，帮助改进教学策略。
语言模型训练：为语言模型提供更加丰富的语料库，增强模型对非流畅表达的理解能力。

项目特点

核心功能

精确时间戳：在非流畅表达和停顿处提供精确的时间戳。
逐字转录：精确转录每个单词，包括填充词。
填充词检测：准确识别并转录填充词。
减少幻觉：减少转录过程中的幻觉现象，提高准确性。

性能概览

在多个数据集上的对比测试表明，CrisperWhisper 在逐字转录方面表现优于 Whisper Large v3，尤其是在 AMI 和 TED-LIUM 这样的数据集上。以下是一些性能指标：

AMI 数据集：CrisperWhisper 的 WER 为 8.72%，而 Whisper Large v3 为 16.01%。
LibriSpeech 数据集：CrisperWhisper 在清洁和其它子集上的 WER 分别为 1.74% 和 3.97%，而 Whisper Large v3 分别为 2.03% 和 3.91%。
平均 WER：CrisperWhisper 为 6.66%，Whisper Large v3 为 7.7%。

在分割性能方面，CrisperWhisper 同样表现出色，尤其是在处理非流畅表达和停顿时。

使用方法

CrisperWhisper 的使用非常简单，只需按照以下步骤：

克隆仓库并创建 Python 环境。
安装所需的依赖。
使用提供的 API 或 Python 脚本来执行语音识别。

总结

CrisperWhisper 作为一款强大的语音识别工具，不仅提供了精确的时间戳和逐字转录功能，还通过减少转录幻觉，极大地提高了转录的准确性。无论是学术研究还是实际应用，CrisperWhisper 都是一个值得尝试的选择。立即体验 CrisperWhisper，提升您的语音识别能力。

CrisperWhisper Verbatim Automatic Speech Recognition with improved word-level timestamps and filler detection 项目地址: https://gitcode.com/gh_mirrors/cr/CrisperWhisper

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

孙樱晶Red 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。