CrisperWhisper 使用教程

岑尤琪

于 2025-04-09 11:30:49 发布

阅读量494

点赞数 17

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00314/article/details/147089789

CrisperWhisper 使用教程

CrisperWhisper Verbatim Automatic Speech Recognition with improved word-level timestamps and filler detection 项目地址: https://gitcode.com/gh_mirrors/cr/CrisperWhisper

1. 项目介绍

CrisperWhisper 是一个基于 OpenAI Whisper 的开源项目，由 nyrahealth 组织开发。它旨在提供一种快速、精确且逐字逐句的语音识别方法，能够准确记录包括停顿、犹豫和口吃在内的所有细节。与 Whisper 相比，CrisperWhisper 能够更完整地转录语音，包括各种填充词（如 "um" 和 "uh"）。

2. 项目快速启动

以下是快速启动 CrisperWhisper 的步骤：

环境准备

Python 3.10
PyTorch 2.0
NVIDIA 库：cuBLAS 11.x 和 cuDNN 8.x（针对 GPU 执行）

克隆仓库

git clone https://github.com/nyrahealth/CrisperWhisper.git
cd CrisperWhisper

创建 Python 环境

conda create --name crisperWhisper python=3.10
conda activate crisperWhisper

安装依赖

pip install -r requirements.txt

额外安装

遵循 OpenAI 的说明来安装额外的依赖，如 ffmpeg 和 rust。

安装自定义的 transformers fork

为了获得最准确的时标，首先安装我们的自定义 transformers fork：

pip install git+https://github.com/nyrahealth/transformers.git@crisper_whisper

使用 🤗 transformers

确保您有一个 huggingface 账户并接受模型的许可。获取您的 huggingface 访问令牌并登录，以确保您可以下载模型。

huggingface-cli login

import os
import sys
import torch
from datasets import load_dataset
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from utils import adjust_pauses