whisper实时语音转文字

    import whisper
    
    import os
    
    
    def check_file_exists(file_path):
        if not os.path.exists(file_path):
            raise FileNotFoundError(f"音频文件不存在: {file_path}")
    
    
    # 音频文件路径
    audio_path = r"D:\视频\temp_audio.wav"
    
    # 检查文件是否存在
    check_file_exists(audio_path)
    
    # 加载模型
    model = whisper.load_model("large-v2")  # 使用较小的模型进行测试
    
    # 转录音频文件
    result = model.transcribe(audio_path)
    
    # 打印识别结果
    print(result["text"])
    

    安装Whisper
    pip install -U openai-whisper
    1
    此外你还需要安装ffmpeg。

    下载模型:
    Whisper提供了多种大小的模型,您可以根据需要下载。例如,要下载large-v2模型,可以使用以下命令:

    wget https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt
    1
    模型文件通常保存在~/.cache/whisper/目录下。

    Openai whisper模型下载链接,包括medium(中型),large-v1、large-v2、large-v3

     

    medium:https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt
    
    large-v1: https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt   
    
    large-v2: https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt
    
    large-v3:https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt
    
    
    {
        "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
        "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
        "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
        "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
        "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
        "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
        "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
        "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
        "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
        "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
        "large-v3": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
        "large": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
    }
    

    Whisper是一个开源的语音文字系统,它可以将语音信号换为对应的文本。在使用Whisper进行语音文字时,可以设置一些参数来优化换的效果。以下是一些常用的Whisper语音文字参数的介绍: 1. `sample_rate`:采样率,表示每秒钟采集的样本数。常见的采样率有8000、16000、44100等。 2. `frame_length`:帧长度,表示每一帧的音频信号的长度。通常使用的帧长度为20ms到40ms之间。 3. `hop_length`:帧移,表示相邻两帧之间的间隔。通常使用的帧移为10ms到20ms之间。 4. `n_fft`:傅里叶变换的窗口大小,用于将时域信号换为频域信号。通常使用的窗口大小为20ms到40ms之间。 5. `preemphasis_coefficient`:预加重系数,用于增强高频信号的能量。通常使用的预加重系数为0.95。 6. `min_level_db`和`ref_level_db`:用于控制音频信号的动态范围。`min_level_db`表示最小分贝数,`ref_level_db`表示参考分贝数。 7. `num_mels`:梅尔频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs)的数量。通常使用的数量为80。 8. `fmin`和`fmax`:用于控制梅尔滤波器的频率范围。`fmin`表示最低频率,`fmax`表示最高频率。 9. `griffin_lim_iters`:Griffin-Lim算法的迭代次数,用于将梅尔频谱恢复为音频信号。 以上是一些常用的Whisper语音文字参数的介绍。根据具体的需求和场景,可以调整这些参数来获得更好的语音文字效果。
    评论 1
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值
    程序员都在用的中文IT技术交流社区

    程序员都在用的中文IT技术交流社区

    专业的中文 IT 技术社区,与千万技术人共成长

    专业的中文 IT 技术社区,与千万技术人共成长

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    客服 返回顶部