[1305]whisper(音转文)使用教程

最新推荐文章于 2025-03-27 14:39:46 发布

周小董

最新推荐文章于 2025-03-27 14:39:46 发布

阅读量4.9k

点赞数 38

分类专栏： Python前行者文章标签： whisper

本文链接：https://blog.youkuaiyun.com/xc_zhou/article/details/142387169

版权

Python前行者专栏收录该内容

339 篇文章

订阅专栏

文章目录

- - 实时录制音频并转录
- faster-whisper使用教程

github：https://github.com/openai/whisper
https://gitcode.com/gh_mirrors/whisp/whisper/overview
https://github.com/jhj0517/Whisper-WebUI

安装Whisper

pip install -U openai-whisper

此外你还需要安装ffmpeg。

下载模型：

Whisper提供了多种大小的模型，您可以根据需要下载。例如，要下载large-v2模型，可以使用以下命令：

wget https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt

模型文件通常保存在~/.cache/whisper/目录下。

Openai whisper模型下载链接，包括medium（中型），large-v1、large-v2、large-v3

medium：https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt

large-v1： https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt   

large-v2： https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt

large-v3：https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt


{
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
    "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
    "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
    "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
    "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
    "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
    "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
    "large-v3": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
    "large": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
}

使用Whisper进行语音识别

import whisper

# 加载模型
model = whisper.load_model("large-v2")
# 转录音频文件
result = model.transcribe("path_to_your_audio_file.wav")
# 打印识别结果
print(result["text"])

首先，我们建议使用Whisper的large-v2模型。根据我的实测结果，这个模型的表现非常优秀，它可以识别多种语言，包括中文，而且中文识别效果非常出色。在某些文字转换的场景中，它的表现甚至优于腾讯云、阿里云。

实时录制音频并转录

import pyaudio
import wave
import numpy as np
from pydub import AudioSegment
from audioHandle import addAudio_volume,calculate_volume
from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

def GetIndex():
    p = pyaudio.PyAudio()
    # 要找查的设备名称中的关键字
    target = '立体声混音'
    for i in range(p.get_device_count()):
        devInfo = p.get_device_info_by_index(i)
        # if devInfo['hostApi'] == 0:
        if devInfo['name'].find(target) >= 0 and devInfo['hostApi'] == 0:
            print(devInfo)
            print(devInfo['index'])
            return devInfo['index']
    return -1
# 配置
FORMAT = pyaudio.paInt16  # 数据格式
CHANNELS = 1 # 声道数
RATE = 16000  # 采样率
CHUNK = 1024  # 数据块大小
RECORD_SECONDS = 5  # 录制时长
WAVE_OUTPUT_FILENAME = "output3.wav"  # 输出文件
DEVICE_INDEX = GetIndex() # 设备索引，请根据您的系统声音设备进行替换
if DEVICE_INDEX==-1:
    print('请打开立体声混音')
audio = pyaudio.PyAudio()

# 开始录制
stream = audio.open(format=FORMAT, channels=CHANNELS,
                    rate=RATE, input=True,
                    frames_per_buffer=CHUNK, input_device_index=DEVICE_INDEX)
data = stream.read(CHUNK)
print("recording...")

frames = []

moreDatas=[]
maxcount=3
count=0
while True:
    # 初始化一个空的缓冲区

    datas = []
    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):

        data = stream.read(CHUNK)

        audio_data = np.frombuffer(data, dtype=np.int16)
        datas.append(data)


        # 计算音频的平均绝对值
        volume = np.mean(np.abs(audio_data))
        # 将音量级别打印出来
        print("音量级别:", volume)
    moreDatas.append(datas)

    if len(moreDatas)>maxcount:
        moreDatas.pop(0)
    newDatas=[i for j in moreDatas for i in j]
    buffers=b''
    for buffer in newDatas:
        buffers+=buffer

    print('开始识别')
    buffers=np.frombuffer(buffers, dtype=np.int16)
   # a = np.ndarray(buffer=np.array(datas), dtype=np.int16, shape=(CHUNK,))
    segments, info = model.transcribe(np.array(buffers), language="en")
    text=''
    for segment in segments:
        print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
        text+=segment.text
    print(text)
print("finished recording")

# 停止录制
stream.stop_stream()
stream.close()
audio.terminate()

# 保存录音
wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(audio.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()

#addAudio_volume(WAVE_OUTPUT_FILENAME)

配置麦克风输入
在开始语音识别之前，您需要配置麦克风输入。您可以使用Python的pyaudio库来捕获麦克风输入。例如：

import pyaudio
p = pyaudio.PyAudio()
stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=1024)
stream.start_stream()

创建语音识别器对象
接下来，您需要创建一个语音识别器对象。您可以使用Whisper库的create_recognizer函数来创建它。例如：

recognizer = whisper.create_recognizer()

开始语音识别
现在，您可以开始进行语音识别了。您可以使用recognizer对象的listen方法来捕获音频输入，并使用recognizer对象的recognize方法来识别音频内容。例如：

audio = recognizer.listen(stream)
text = recognizer.recognize(audio)

处理识别结果
最后，您可以处理识别结果。例如，您可以将识别的文本输出到控制台或将其保存到文件中。例如：

print(text)  # 输出到控制台

faster-whisper使用教程

github：https://github.com/SYSTRAN/faster-whisper
https://gitcode.com/gh_mirrors/fas/faster-whisper/overview
https://github.com/ycyy/faster-whisper-webui

Faster Whisper 是一个基于 CTranslate2 的 OpenAI Whisper 模型的重新实现。它是一个快速推理引擎，用于 Transformer 模型，相比 OpenAI 的 Whisper 模型，速度提升了 4 倍。该项目支持 Windows、Linux 和 macOS 平台，并且提供了多种优化选项，如 FP16 和 INT8 计算类型，以适应不同的硬件环境。

安装

pip install faster-whisper

样例

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

from faster_whisper import WhisperModel


model_size = "large-v3"  # 选择模型大小，这里使用的是较大的模型版本
device = "cuda"  # 在GPU上运行则设置为"cuda"，如果CPU运行则设置为"cpu"
compute_type = "float16"  # 使用FP16计算类型进行高效计算

# model = WhisperModel(model_size, device=device, compute_type=compute_type)
# 或在CPU上以INT8模式运行
model = WhisperModel(model_size, device="cpu", compute_type="int8")

# file_name = "./data/rich_text_example_1.wav"
file_name = "./data/2.mp3"
# 对音频文件进行转录，beam_size参数影响转录的精度和速度
segments, info = model.transcribe(file_name, beam_size=5)
# 输出检测到的语言和置信度
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    # 输出每个转录段的内容和时间信息
    print("[% 2fs -> % 2fs] %s" % (segment.start, segment.end, segment.text))

whisper参考：https://www.bilibili.com/read/cv28169729/
https://blog.youkuaiyun.com/jaja1223/article/details/134991210
https://blog.youkuaiyun.com/u010751000/article/details/130333856
https://blog.youkuaiyun.com/qq_51116518/article/details/136864350
https://zhuanlan.zhihu.com/p/692375653
https://developer.baidu.com/article/detail.html?id=2850876
https://cloud.tencent.com/developer/article/2421076

whisper-webui使用教程：https://post.smzdm.com/p/a3052kz7/

faster-whisper参考：https://blog.youkuaiyun.com/gitblog_00489/article/details/141049036
https://zhuanlan.zhihu.com/p/690424577