深度学习应用-WeNet语音识别实战01

原创

已于 2022-12-26 17:29:11 修改 · 5.7k 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能

于 2022-12-26 17:22:53 首次发布

本文通过实战演示了WeNet声音识别网络的Python API使用过程，包括非流式和流式的应用案例。文中详细介绍了如何准备音频文件以符合API的要求，并展示了如何加载模型进行识别。

概括

本文对WeNet声音识别网络的Python API上介绍的Non-Streaming Usage和 Streaming-Usage分别做了测试，两者本质相同。API对应采样的声音帧率、声道都做了限制。效果还可以，但是部分吐字不清晰、有歧义的地方仍然不能识别清晰。

项目地址：

GitHub - wenet-e2e/wenet: Production First and Production Ready End-to-End Speech Recognition Toolkit

安装：

pip3 install wenetruntime

根据项目要求，python版本必须3.6+，这里为3.8.3, 因此没有问题

应用案例：

官方文档上分为非流式和流式两种，本次先演示非流式应用：

非流式：

第一步：压缩wav文件，根据测试，api使用wave库打开文件。且仅支持单声道、固定帧率。

import wave
with wave.open(wav_file, 'rb') as fin:
    assert fin.getnchannels() == 1
    assert fin.getsampwidth() == 2
    assert fin.getframerate() == 16000

第二步：我准备用来识别的《起风了》wav格式显然不符合要求，使

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaozoom

关注关注

17
点赞
踩
40

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

WeNet语音识别实战

weixin_48827824的博客

06-21

7375

音之家-AI工匠学堂推出《WeNet语音识别实战》， WeNet是目前工业界最流行的开源端到端语音识别系统之一，也是学习端到端语音识别的最佳实践项目。语音识别的学习者和从业者，可以通过学习这门课程高效全面的掌握WeNet的基本原理和实战方法，降低自己摸索的成本，快速构建出高性能的语音识别系统。...

调用WeNet与百度智能云API进行语音识别

啥都不会

11-24

836

调用WeNet与百度智能云进行语音识别，并且使用自定义训练集进行训练。调用wenet的解码器，对测试语音进行识别，输出中文语句；调用百度智能云的api进行语音识别；尝试构建或下载自定义语音数据集，使用wenet框架进行训练。

5 条评论您还未登录，请先登录后发表或查看评论

WeNet语音识别工具包完整使用指南

最新发布

gitblog_00177的博客

11-29

747

WeNet是一个面向生产环境的端到端语音识别工具包，致力于提供稳定、高效且易于使用的解决方案。它支持实时流式传输和非实时离线识别，实现高质量的语音转文字功能。WeNet源自字节跳动，目前由多个企业和社区共同维护，实现了多项前沿技术并取得了在公开数据集上的优秀结果。 ## 快速安装与配置 ### 环境要求与安装步骤确保系统已安装Python 3.7及以上版本，然后执行以下命令： ```ba

WeNet语音识别分词制作词云图

陈增林

12-27

1754

本篇博客将介绍如何使用 Streamlit、jieba、wenet 和其他 Python 库，结合语音识别（WeNet）和词云生成，构建一个功能丰富的应用程序。我们将深入了解代码示例中的不同部分，并解释其如何实现音频处理、语音识别和文本可视化等功能。

《WeNet语音识别实战》答疑回顾（四）

weixin_48827824的博客

09-15

2470

我训练Aishell-1模型，训练到第10个左右的epoch，loss就会飞掉，可能是什么原因呀？

wenet实战系列-双声道音频语音识别

HoyTra0

01-08

2512

双声道音频语音识别demo，ASR模型使用wenet，VAD模型使用WebRTC VAD，可用于客服电话场景等

精选资源

深度学习-语音识别实战

06-22

基于深度学习的语音识别实战课程主要包括三部分内容：1.经典论文算法讲解；2.算法源码解读；3.项目实战；通俗讲解语音识别领域当下经典论文思想，详细解读源码中每一核心模块并基于真实数据集展开项目实战。整体课程...

《WeNet语音识别实战》答疑回顾（一）

weixin_48827824的博客

07-12

3277

WeNet是目前工业界最流行的开源端到端语音识别系统，也是学习端到端语音识别的最佳实践项目（代码运算）。语音识别的学习者和从业者，可以通过学习课程高效全面的掌握Wenet的基本原理和实战方法，降低自己摸索的成本，快速构建出高性能的语音识别系统。 ...

语音识别之Kaldi：学习GMM-HMM

Barbara‘s Blog

12-07

2799

kaldi语音识别理论与实践课程学习。前面的博客介绍了语音识别的基础知识及原理。现在开始学习实战。以Kaldi框架为基础。Kaldi是一个有全套的语音识别代码的工具，由Dan Povey博士和捷克的BUT大学联合开发，最早发布于2011年，底层代码使用C++编写，接口采用shell和python，覆盖了统计模型和深度学习方法，操作灵活，易于扩展，开发者更为活跃。语音识别流程：目前开源的语料库有： Kaldi官网：KALDI里面有详细的文档。下载Kaldi：https://github.com/du-ud/

【语音识别】WeNet——CPU开源中文语音识别模型选择、部署、封装与流式实现

m0_63589378的博客

07-12

4491

本文介绍了一次ASR项目开发，包括知识介绍、模型选择、部署、封装、流式逻辑实现等内容。

wenet 自动语音识别开发库及测试程序（ASR)，windows版本

07-16

wenet 自动语音识别开发库及测试程序（ASR)，windows版本（很难编译）

wenet:生产优先和生产就绪的端到端语音识别工具包

03-11

微网 | | | | 我们一起共享神经网络。 WeNet的主要动机是缩小研究与生产端到端（E2E）语音识别模型之间的差距，减少生产E2E模型的工作量，并探索用于生产的更好的E2E模型。强调生产至生产准备就绪：WeNet的python代码符合TorchScript的要求，因此由WeNet训练的模型可以由Torch JIT直接导出，并使用LibTorch进行推理。研究模型和生产模型之间没有差距。模型推断既不需要模型转换也不需要其他代码。流和非流ASR的统一解决方案：WeNet实施框架，以实现准确，快速和统一的端到端模型，有利于行业采用。可移植的运行时：将提供几个演示，以演示如何在不同的平台（包括服务器和设备上的上托管经过WeNet训练的模型。轻巧：WeNet是专为端到端语音识别而设计的，代码简洁明了。它全部基于PyTorch及其相应的生态系统。它不依赖Kald

【语音识别】WeNet：面向工业落地的E2E语音识别工具

qq_33934427的博客

07-04

8089

WeNet：面向工业落地的E2E语音识别工具

WeNet：面向生产的流式和非流式端到端语音识别工具包

Together_CZ的博客

12-29

2648

WeNet: Production Oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit WeNet：面向生产的流式和非流式端到端语音识别工具包

WeNet:面向生产的流和非流端到端语音识别工具包

李思成的博客

07-21

1816

WeNet: 一个开源的语音识别工具包，旨在通过新的双通道方法U2统一流式和非流式端到端（E2E）语音识别。动机: 缩小E2E语音识别模型的研究与部署之间的差距。架构: 基于Transformer或Conformer编码器的混合连接时序分类（CTC）和注意力模型。关键特性: 动态chunk-based attention策略，实现流式和非流式统一。

探索WeNet：一个面向生产的端到端语音识别工具包

帅小柏的博客

07-09

876

在语音识别领域，端到端（E2E）模型因其简化的训练过程和优越的性能而受到越来越多的关注。然而，将这些模型部署到实际应用中并不容易，需要解决流式推理、统一流式和非流式模式以及生产环境中的实际问题。本文介绍了一个名为WeNet的开源语音识别工具包，它通过一个新的两阶段方法U2，实现了在单一模型中统一流式和非流式E2E语音识别。

带你认识WeNet语音识别系统

usa9197570261的博客

02-01

835

WeNet语音识别系统作为哈稀科技旗下的重要产品，凭借其创新的深度学习和人工智能技术，以及高准确率和稳定性，取得了显著的成果。预计未来的WeNet将会继续提高准确率、降低识别延迟，适应更多的应用场景，并实现更加自然和人性化的语音交互。WeNet语音识别系统作为哈稀科技旗下的一款创新产品，凭借其卓越的性能和稳定性，得到了广大用户的青睐。WeNet语音识别系统。它能够快速、准确地识别用户的语音输入，并将其转化为文本，从而能够更好地理解用户的需求并进行精准的回答和解决方案推荐。三、WeNet的应用场景。

常用语音识别开源四大工具：Kaldi，PaddleSpeech，WeNet，EspNet