Python预训练模型实现俄语音频转文字

Python预训练模型实现俄语音频转文字

使用 Common Voice 8.0、Golos 和 Multilingual TEDx 的训练和验证分割对俄语的 facebook/wav2vec2-xls-r-1b 进行了微调。使用此模型时,请确保您的语音输入以 16kHz 采样。

我们只需要装好三个功能包,写好你的文件路径即可使用!

import torch
import librosa
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

# 选择模型
model_id = "jonatasgrosman/wav2vec2-xls-r-1b-russian"

# 加载处理器和模型
processor = Wav2Vec2Processor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)

# 读取音频文件(此处写你的音频文件路径,当然你还可以写个遍历列表把它放进去)
audio_path = '/content/speech2.wav'
audio, sr = librosa.load(audio_path, sr=16000)

# 音频预处理
inputs = processor(audio, sampling_rate=16000, return_tensors="pt")

# 进行推理
with torch.no_grad():
    logits = model(inputs.input_values).logits

# 获取结果
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

print("识别结果:", transcription)

输出:
识别结果: [‘меньше народов на самом деле если опет пойчет но как все проголосовали так и зылвася догдарна с объет дочи оснолнят в тринадцатом мо мы встрачаемся в во десят осете’]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啥都鼓捣的小yao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值