@李思成-优快云博客

原创常用语音识别开源工具的对比与实践

Wenet,espent,icefall,kaldi语音识别工具的对比与实践

2024-08-18 18:13:51 1549 1

原创新一代kaldi-icefall环境配置与aishell实践

代码来源：[[k2-fsa/icefall (github.com)](https://github.com/k2-fsa/icefall)](https://github.com/kaldi-asr/kaldi)官网文档：https://k2-fsa.github.io/icefall/

2024-08-18 12:50:22 649

如果某些库未安装，脚本会给出提示，你只需根据提示安装缺失的库即可。特别需要注意的是，Kaldi默认使用Intel MKL作为线性代数库。在编译Kaldi之前，需要检查和安装Kaldi依赖的系统开发库，包括g++、LLVM、Clang、zlib、python、gawk、perl、wget、git、libtool等。如果能够访问GitHub，ATLAS headers、OpenFst、SCTK、sph2pipe和CUB将会被自动下载、编译和安装。这是三个不同的语言模型工具，不同的示例使用不同的工具。

2024-08-11 18:10:39 791

原创 Espent环境配置与aishell实践

由于我使用的是服务器，无法生成链接，同wenet一样，将训练生成的tensorboard文件，拿到本机上运行查看效果。，设置GPU数量和使用的GPU编号。按照官网进行测试即可，注意。

2024-08-11 16:26:33 1230

原创 WeNet 2.0:更高效的端到端语音识别工具包

WeNet是一个开源的端到端语音识别工具包，WeNet 2.0在此基础上进行了四项主要更新，以提升其在生产环境中的适应性和性能。主要更新内容：U2++ 框架改进点：在原有U2框架的基础上增加了双向注意力解码器，通过右到左的注意力解码器引入未来上下文信息，提升了共享编码器的代表能力和重评分阶段的性能。性能提升：实验结果表明，U2++相较于原U2框架在多种语料库上的识别性能提升了10%。生产语言模型解决方案改进点。

2024-08-07 18:45:20 1055

原创 Wenet代码分析：混合CTC-Attention的端到端语音识别模型`ASRModel`

这个部分初始化了模型的各个组件，包括编码器、解码器、CTC模块和损失函数。还设置了一些重要的超参数，如ctc_weight和lsm_weight。这是一个CTC-注意力混合编码器-解码器模型，用于语音识别。"""self,vocab_size: int, # 词汇大小，即输出词汇的总数encoder: BaseEncoder, # 编码器模型decoder: TransformerDecoder, # 解码器模型ctc: CTC, # CTC模块。

2024-07-28 18:35:24 822

原创 WeNet环境配置与aishell实践

采用在base环境中安装cuda，配置环境变量，即可使用nvcc。在虚拟环境中继续后续的配置，我在base环境中安装了cuda11.3和cuda12.1，wenet代码均可运行。使用cuda11.3，安装conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch，随后使用requirements.txt进行pip时，注意torch==2.1.2和torchaudio==2.1

2024-07-28 18:33:48 1295

原创 WeNet:面向生产的流和非流端到端语音识别工具包

WeNet: 一个开源的语音识别工具包，旨在通过新的双通道方法U2统一流式和非流式端到端（E2E）语音识别。动机: 缩小E2E语音识别模型的研究与部署之间的差距。架构: 基于Transformer或Conformer编码器的混合连接时序分类（CTC）和注意力模型。关键特性: 动态chunk-based attention策略，实现流式和非流式统一。

2024-07-21 11:48:23 1431

原创端到端语音识别

使用单个序列到序列模型，直接将输入声学特征序列映射到文本。输入特征目前，端到端语音识别系统常用的输入特征是滤波器组频谱（filterbank，简称 fbank）。预加重：对原始语音信号进行预加重，以增强高频成分，改善信号的频谱特性。分帧：将语音信号分成多个小的帧，每帧通常为20-40毫秒，以便进行短时分析。加窗：对每个帧应用窗函数（如汉明窗），以减少频谱泄漏现象。短时傅里叶变换（STFT）：对每个加窗后的帧进行短时傅里叶变换，得到频谱图。Mel 滤波。

2024-07-18 17:59:55 1862

原创语音信号处理及特征提取

Fbank特征通常用于深度神经网络（DNN）的训练，它是一种基于滤波器组的声音特征提取方法，常用于语音识别和语音处理领域。MFCC特征12维原始MFCC12维一阶差分12维二阶差分1维能量1维能量的一阶差分1维能量的二阶差分这些特征通常用于对角高斯混合模型（GMM）的训练，因为它们的各维度之间相关性较小，适合用于统计建模和分类任务。

2024-07-14 17:52:15 1185

原创语音识别概述

语音是语言的声学表现形式，是人类自然的交流工具。语音识别（Automatic Speech Recognition, ASR 或 Speech to Text, STT）是将语音转换为文本的任务。其主要目标是解决机器“听清”问题，处理声学和（部分）语言上的混淆，确保每个人的语音都能被正确识别为文本。

2024-07-13 08:48:25 2159 1

原创动手学深度学习（Pytorch版）代码实践 -注意力机制-Transformer

解码器块是Transformer解码器的基础单元，包含解码器自注意力、编码器-解码器注意力和前馈神经网络。每个子层之后都加了残差连接和层规范化。：在解码时通过注意力机制获取编码器的上下文信息，并生成序列输出。

2024-07-10 19:09:07 1747

原创动手学深度学习（Pytorch版）代码实践 -循环神经网络-57长短期记忆网络（LSTM）

在训练过程中，随着时间步的增加，梯度可能会消失或爆炸，导致模型难以学习和记忆长时间间隔的信息。还引入了一个称为记忆单元（Cell State）的概念，用于携带长期信息。能够选择性地记住或遗忘信息，从而解决了长时依赖问题。都引入了门控机制，但它们的具体实现有所不同。（门控循环单元）是另一种解决长时依赖问题的。的长时依赖问题而设计的。

2024-07-10 19:07:00 605

原创动手学深度学习（Pytorch版）代码实践 -循环神经网络-56门控循环单元（GRU）

前者支持隐状态的门控。这意味着模型有专门的机制来确定应该何时更新隐状态，以及应该何时重置隐状态。这些机制是可学习的，并且能够解决了上面列出的问题。例如，如果第一个词元非常重要，模型将学会在第一次观测之后不更新隐状态。同样，模型也可以学会跳过不相关的临时观测。最后，模型还将学会在需要的时候重置隐状态。我们讨论了如何在循环神经网络中计算梯度，以及矩阵连续乘积可以导致梯度消失或梯度爆炸的问题。

2024-07-07 18:12:25 736 1

原创动手学深度学习（Pytorch版）代码实践 -循环神经网络-54循环神经网络概述

使用潜变量h_t总结过去信息循环神经网络（，简称RNN）源自于1982年由提出的霍普菲尔德网络。循环神经网络，是指在全连接神经网络的基础上增加了前后时序上的关系，可以更好地处理比如机器翻译等的与时序相关的问题。循环神经网络是一种对序列数据有较强的处理能力的网络。在网络模型中不同部分进行权值共享使得模型可以扩展到不同样式的样本，比如CNN网络中一个确定好的卷积核模板，几乎可以处理任何大小的图片。将图片中分成多个区域，使用同样的卷积核对每一个区域进行处理，最后可以获得非常好的处理结果。

2024-07-07 17:04:05 906

原创动手学深度学习（Pytorch版）代码实践 -循环神经网络-55循环神经网络的从零开始实现和简洁实现

【代码】动手学深度学习（Pytorch版）代码实践 -循环神经网络-54~55循环神经网络的从零开始实现和简洁实现。

2024-07-06 09:26:57 794

原创动手学深度学习（Pytorch版）代码实践 -循环神经网络-53语言模型和数据集

【代码】动手学深度学习（Pytorch版）代码实践 -循环神经网络-53语言模型和数据集。

2024-07-06 09:19:04 452

原创动手学深度学习（Pytorch版）代码实践 -循环神经网络-52文本预处理

【代码】动手学深度学习（Pytorch版）代码实践 -循环神经网络-52文本预处理。

2024-07-06 09:16:01 833

原创动手学深度学习（Pytorch版）代码实践 -循环神经网络-51序列模型

【代码】动手学深度学习（Pytorch版）代码实践 -循环神经网络-51序列模型。

2024-07-06 09:03:49 578

原创动手学深度学习（Pytorch版）代码实践 -计算机视觉-49风格迁移

【代码】动手学深度学习（Pytorch版）代码实践 -计算机视觉-49风格迁移。

2024-06-30 17:57:41 446

原创动手学深度学习（Pytorch版）代码实践 -计算机视觉-48全连接卷积神经网络（FCN）

【代码】动手学深度学习（Pytorch版）代码实践 -计算机视觉-48全连接卷积神经网络（FCN）

2024-06-30 09:30:00 638

原创动手学深度学习（Pytorch版）代码实践 -计算机视觉-47转置卷积

【代码】动手学深度学习（Pytorch版）代码实践 -计算机视觉-47转置卷积。

2024-06-29 22:30:00 500

原创动手学深度学习（Pytorch版）代码实践 -计算机视觉-46语义分割和数据集

【代码】动手学深度学习（Pytorch版）代码实践 -计算机视觉-46语义分割和数据集。

2024-06-29 18:18:35 415

原创动手学深度学习（Pytorch版）代码实践 -计算机视觉-41目标检测数据集

【代码】动手学深度学习（Pytorch版）代码实践 -计算机视觉-41目标检测数据集。

2024-06-28 16:54:58 431

原创动手学深度学习（Pytorch版）代码实践 -计算机视觉-40目标检测和边界框

【代码】动手学深度学习（Pytorch版）代码实践 -计算机视觉-40目标检测和边界框。

2024-06-28 16:53:53 358

原创动手学深度学习（Pytorch版）代码实践 -计算机视觉-45多尺度目标检测

【代码】动手学深度学习（Pytorch版）代码实践 -计算机视觉-45多尺度目标检测。

2024-06-28 16:25:18 465 1

原创动手学深度学习（Pytorch版）代码实践 -计算机视觉-44目标检测算法综述：R-CNN、SSD和YOLO

R-CNN 是最早也是最有名的一类基于锚框和 CNN 的目标检测算法。Fast R-CNN 和 Faster R-CNN 持续提升性能。Faster R-CNN 和 Mask R-CNN 常用于高精度要求的场景，但速度相对较慢。速度快但精度较低。虽然作者没有持续提升，但 SSD 启发了一系列后续工作，实现上相对简单。SSD 通过单神经网络进行检测（single shot）。以像素为中心产生多个锚框，在多个层的输出上进行多尺度检测。

2024-06-28 16:16:51 1042