Parakeet 是一个端到端平台,用于在任何地方(任何云端和本地)大规模开发多模态生成式 AI 模型,包括自动语音识别 (ASR) 模型。这些最先进的 ASR 模型是与 Suno.ai 合作开发的,能够极其准确地转录英语口语。
本文详细介绍了 Parakeet ASR 模型在语音识别领域的新突破。
图 1、 NVIDIA Parakeet 系列 ASR 模型Hugging Face 开放 ASR 排行榜 截至 2024 年 1 月 3 日
隆重推出 Parakeet ASR 系列
四个已发布的 Parakeet 模型基于递归神经网络传感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解码器。它们拥有 0.6 B 和 11 B 参数,可处理各种音频环境,表现出对音乐和静音等非语音片段的弹性。
这些模型基于广泛的 64000 小时公有和专有数据集进行训练,在各种口音和方言、人声范围以及不同的域和噪音条件下表现出出色的准确性。
模型 | 准确性/速度权衡 | 用例 |
Parakeet CTC 1.1 B Parakeet CTC 0.6 B |