Whisper-large-v3-turbo 最佳语音识别,速度更快

   Openai 上线语音模型whisper-large-v3-turbo

在本文中,我们将介绍 whisper-large-v3-turbo 以及 whisper-web(一个直接在浏览器中进行ML语音识别的开源项目)。

尽管近年来出现了许多音频和多模态模型,但Whisper 仍是生产级自动语音识别(ASR)的首选。

Whisper 是一种最先进的自动语音识别 (ASR) 和语音翻译模型,由 OpenAI 的 Alec Radford 等人在论文《 通过大规模弱监督实现稳健语音识别》中提出。

Whisper 模型有两种风格:纯英语和多语言。纯英语模型接受英语语音识别任务的训练。多语言模型同时进行多语言语音识别和语音翻译训练。对于语音识别,该模型会预测与音频相同语言的转录。对于语音翻译,该模型会预测转录为与音频不同的语言。

Whisper 检查点有五种不同型号尺寸的配置。最小的四种语言有纯英语和多语言版本。最大的检查站仅支持多种语言。Hugging Face Hub上提供了所有十个预先训练的检查点。下表总结了检查点:

新推出的 Whisper Turbo 模型是 OpenAI 开发的,经过约 500 万小时的标记数据训练,具有出色的泛化能力

### 设置Whisper Large V3 Turbo模型的语言 对于`whisper-large-v3-turbo`这样的特定模型,设置输入音频文件的目标语言可以通过向推理API传递参数来实现。当使用Hugging Face Transformers库加载并调用该模型时,可以指定目标语言作为额外的解码选项之一。 具体来说,在执行语音识别任务之前,应当创建一个字典对象用于存储这些配置项,其中包括想要设定的语言代码。下面是一个Python脚本的例子,展示了怎样通过编程方式为给定的音频片段指定期望的结果输出所使用的自然语言: ```python from transformers import WhisperProcessor, WhisperForConditionalGeneration processor = WhisperProcessor.from_pretrained("openai/whisper-large-v3") # 加载处理器 model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v3") # 初始化模型实例 # 定义要转换成文本的音频路径 audio_path = "./example.wav" # 准备编码器输入数据 input_features = processor(audio_path, sampling_rate=16000, return_tensors="pt").input_features # 创建带有语言提示的任务描述符 generate_kwargs = {"task": "transcribe", "language": "<target_language_code>"} # 使用带有所需参数的generate函数来进行预测 predicted_ids = model.generate(input_features, **generate_kwargs) # 将生成的ID序列转回字符串形式的人类可读文本 transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0] print(f"Transcribed text:\n{transcription}") ``` 在这个例子中,`<target_language_code>`应该被替换为目标ISO 639-3标准下的三字母语言代码(例如:"eng"代表英语)。这允许用户控制最终翻译结果的具体语种[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值