NeMo Parakeet ASR 模型突破语音识别的界限

最新推荐文章于 2025-05-12 07:15:00 发布

人工智能时代准备好了吗

最新推荐文章于 2025-05-12 07:15:00 发布

阅读量1.1k

点赞数 19

文章标签：语音识别人工智能

本文链接：https://blog.youkuaiyun.com/ertfafrtrtrtyr/article/details/142298431

版权

Parakeet 是一个端到端平台，用于在任何地方（任何云端和本地）大规模开发多模态生成式 AI 模型，包括自动语音识别 (ASR) 模型。这些最先进的 ASR 模型是与 Suno.ai 合作开发的，能够极其准确地转录英语口语。

本文详细介绍了 Parakeet ASR 模型在语音识别领域的新突破。

图 1、 NVIDIA Parakeet 系列 ASR 模型Hugging Face 开放 ASR 排行榜 截至 2024 年 1 月 3 日

隆重推出 Parakeet ASR 系列

四个已发布的 Parakeet 模型基于递归神经网络传感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解码器。它们拥有 0.6 B 和 11 B 参数，可处理各种音频环境，表现出对音乐和静音等非语音片段的弹性。

这些模型基于广泛的 64000 小时公有和专有数据集进行训练，在各种口音和方言、人声范围以及不同的域和噪音条件下表现出出色的准确性。

模型	准确性/速度权衡	用例
Parakeet CTC 1.1 B Parakeet CTC 0.6 B

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

人工智能时代准备好了吗

关注关注

19
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

自动语音识别（ASR）模型全览

u013250861的博客

03-04

471

场景适配建议移动端/嵌入式：Zipformer、Moonshine、QuartzNet（低功耗、轻量化）。实时交互：Squeezeformer、Transformer Transducer（低延迟）。多语言/方言：Whisper、腾讯云ASR、Paraformer（支持热词定制）。企业级服务：FunASR、WeNet（高精度、易部署）。学术研究：Kaldi、ESPnet（灵活可定制）。

NVIDIA NeMo 框架 github项目

强化学习曾小健

07-20

1418

如果您使用 LLM 和 MM 域，则需要三个额外的依赖项：NVIDIA Apex、NVIDIA Transformer Engine 和 NVIDIA Megatron Core。要在配备 Apple M 系列 GPU 的 Mac 电脑上安装 NeMo，您需要创建一个新的 Conda 环境，安装 PyTorch 2.0 或更高版本，然后安装 nemo_toolkit。如果您只想要工具包而不需要额外的基于 Conda 的依赖项，那么当您的 PWD 是 NeMo 存储库的根目录时，您可以将。

参与评论您还未登录，请先登录后发表或查看评论

(含源码和训练数据集)在Python中使用PyTorch Lightning构建自动语音识别(ASR)模型

专注于人工智能领域的小何尚

06-10

6000

人工智能正在推动第四次工业革命，机器可以听、看、理解、分析，然后在超人的水平上做出明智的决定。然而，人工智能的有效性取决于底层模型的质量。因此，无论您是学术研究人员还是数据科学家，您都希望快速构建具有各种参数的模型，并为您的解决方案确定最有效的模型。在这篇文章中，我将介绍使用 PyTorch Lightning 构建语音模型。PyTorch Lightning 是用于高性能 AI 研究的轻量级 PyTorch 包装器。使用 Lightning 组织 PyTorch 代码可以在多个 GPU、TPU、CP

深入解析ASR技术：从基础原理到模型优化

smallfatman的博客

04-07

1656

自动语音识别（Automatic Speech Recognition，ASR）是现代人机交互的核心技术之一，它使计算机能够将人类语音转换为可处理的文本数据。ASR技术作为语音交互的入口，其准确性直接影响用户体验。通过建立科学的评价体系、系统的优化流程和针对性的模型调优，可以显著提升识别率。端到端模型：简化传统流水线，提升整体性能自适应学习：实时适应用户发音特点多模态融合：结合视觉、上下文等信息提升准确率低资源场景：提升小数据量下的模型表现。

ASR常用模型

Lyncai的专栏

07-24

1493

Nemo(1.0.0b1)-语音服务（aarch64）

悄悄接

02-23

390

基于NVIDIA-Jetson XAG搭建Nemo（1.0.0b1）语音服务容器构建及容器环境配置 sudo docker run -d --runtime nvidia --network host -v /home/nvidia/Nemo_1.0.0b1:/Nemo --name=Nemo-1.0.0b1 nvcr.io/nvidia/l4t-ml:r32.4.4-py3 tail -f /dev/null sudo docker exec -it Nemo-1.0.0b1 /bin/bash

AI：安装Nemo并进行自动语音识别

GIS摆渡人

06-25

598

本来是启动jupyter lab后使用jupyter notebook 写的，为了方便这里合并成了一个python文件。参考：https://cloud.tencent.com/developer/article/2011234。接下来命令行前方显示不再是 (base) 而是 (studyNemo).系统: Ubuntu Server 18.04.1 LTS 64位。此时命令行最前方显示应该如下图所示：出现了一个(base)这个表明当前位于conda的base环境内部。显卡: GN8 (P40)

ASR（自动语音识别）任务中的LLM（大语言模型）

from top to bottom

08-18

7816

Nvidia发布Parakeet V2，一款新的开源自动语音识别模型

m0_46568584的博客

05-06

558

训练与评估：使用 NeMo 工具包训练，从 LibriLight 数据集预训练的 wav2vec SSL 检查点初始化，在多种数据集上训练，包括 10000 小时人工转录数据和 110000 小时伪标记数据，训练数据包含多种噪声源。模型在不同数据集上的平均 WER 为 6.05%，在噪声鲁棒性和电话音频性能方面也有相应测试结果。基本信息：基于 FastConformer-TDT 架构，有 6 亿参数，用于高质量英语转录，支持标点、大小写和时间戳预测，遵循 CC-BY-4.0 许可，可全球部署。

NVIDIA Sky Hackathon——有关ASR模型相关简述

yeyeyeyezihao的博客

12-03

1433

NVIDIA Sky Hackathon 比赛相关理解以及ASR语音训练模型简述

ASR系列1 - 主流开源ASR框架介绍

ms44的专栏

02-20

2376

现代 ASR 可以非常可靠地将口语单词转录为数字文本格式，从而可以更轻松地分析、存储和处理音频数据，以供电信、医疗保健、教育、客户服务和娱乐等行业的广泛应用。当今大多数领先的 ASR 模型都是围绕编码器-解码器架构构建的。编码器从输入中提取听觉特征，解码器将这些特征重构为自然语言序列。利用这种架构，这些模型可以实现接近人类水平的音频和视频记录转录，例如采访、会议和讲座，甚至是实时的；它有助于将语音查询或命令转换为可操作的数据，从而增强用户体验和客户服务应用程序的效率。

基础课4——语音识别技术ASR

2202_75469062的博客

10-17

1872

ASR 是自动语音识别（Automatic Speech Recognition）的缩写，是一种将人类语音转换为文本的技术。ASR 系统可以处理实时音频流或已录制的音频文件，并将其转换为文本。它是一种自然语言处理技术，广泛应用于许多领域，包括电话语音助手、语音转文本、语音搜索等。

对于ASR流程的理解

Xwei1226的博客

05-02

5789

训练声学模型(ＡＭ)的概念在钻研脚本之前,理解训练声学模型的基本过程很重要。考虑听众和本教程的目的，这部分主要关注处理的流程而不是计算。处理的流程分解如下:1)获得语音数据的文本标注为了更准确地对齐，一句话(句子)的开始和结束时间有用但是不必要。术语解释：utterance(句子)à在口语分析中，句子是最小的单位，它是一个以明确的停顿开始和结束的连续讲话。 2)格式化标注为Kaldi需要的格式在声...

ASR(Automatic Speech Recognition)调研，当前sota的架构

weixin_48435461的博客

08-05

1870

本文主要讲述nvidia和openai的模型架构，应为他们两家霸榜。小白也能阅读了解一下当前sota的asr架构是什么样的。

【AI语音基础】ASR基本知识

AI_Gump的博客

04-28

8383

带入上面公式，S表示将Hyp转化为Ref时发生的替换数量，D表示将Hyp转化为Ref时发生的替换数量，I代表将Hypo转化为Ref时发生的插入数量，N代表Ref句子中总的字数或者英文单词数。定义：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER。因为英文语句中句子的最小单位是单词，而中文语句中的最小单位是汉字，因此在中文语音转文本任务或中文语音识别任务中使用。

Parakeet TDT 0.6B V2 - 高精度英语语音识别模型