NeMo Parakeet ASR 模型突破语音识别的界限

Parakeet 是一个端到端平台,用于在任何地方(任何云端和本地)大规模开发多模态生成式 AI 模型,包括自动语音识别 (ASR) 模型。这些最先进的 ASR 模型是与 Suno.ai 合作开发的,能够极其准确地转录英语口语。

本文详细介绍了 Parakeet ASR 模型在语音识别领域的新突破。

Figure shows NVIDIA Parakeet models as top-ranking models with an average WER score of 7.04 compared to another model's average WER of 7.7..

图 1、 NVIDIA Parakeet 系列 ASR 模型Hugging Face 开放 ASR 排行榜 截至 2024 年 1 月 3 日

隆重推出 Parakeet ASR 系列 

四个已发布的 Parakeet 模型基于递归神经网络传感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解码器。它们拥有 0.6 B 和 11 B 参数,可处理各种音频环境,表现出对音乐和静音等非语音片段的弹性。

这些模型基于广泛的 64000 小时公有和专有数据集进行训练,在各种口音和方言、人声范围以及不同的域和噪音条件下表现出出色的准确性。

模型 准确性/速度权衡 用例
Parakeet CTC 1.1 B
Parakeet CTC 0.6 B
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值