自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 TDNN模型及其改进模型的理解

    时延神经网络(TDNN)相当于CNN的前身,相当于1dcnn即一维CNN,它的共享权重被限制在单一的维度上,并且没有池化层,适用于语音和时间序列的信号处理。TDNN区别于只用了一帧特征的模型结构,是一个能够包含多帧的神经网络,若延时为2,则连续的3帧都能够出现,这里的隐含层用于特征抽取,若输入层每一帧有13维MFCC特征输入,网络有10个隐含层,那么连接的权重数目即为3*13*10=390个。此时延时神经网络相当于把权重延时,隐藏层和输出层之间若采用该方法,这样整体的权重就大大减少,便于训练.

2022-04-21 17:59:27 6048 1

原创 视频提取音频与添加

MoviePy是一个用于视频编辑Python库:切割、拼接、标题插入,视频合成(即非线性编辑),视频处理和自定义效果的创造。moviepy可以读写所有常见的音频和视频格式,如GIF,并且可以在Windows / Mac / Linux等不同系统上使用....

2021-09-24 16:01:54 432

原创 理解LSTM

  在ASR中近期用到了一种特殊的循环神经网络(RNN):长短期记忆网络(Long short-term memory,LSTM).RNN适用于处理序列数据和预测任务,在进行反向传播的时候,RNN有可能会出现梯度消失,而梯度在模型训练过程中是来更新神经网络权重值的,所以随着时间推移梯度在传播时会下降,如果梯度值变得非常小训练的模型就不会继续学习,会使得其无法记住在较长序列中学习到的内容,也就是说它的记忆是短期的。针对上述会受到的短期记忆的影响,提出了LSTM的解决方案,通过引入门结构来减弱短期记忆影响的演化

2021-09-14 14:44:35 340

原创 ubuntu16.04搭建http服务器建立共享文件夹

1、安装apache2工具sudo apt-get updatesudo apt-get install apache22、查看是否安装成功apache2 -version3、Apache 2的配置sudo ufw app listsudo ufw allow 'Apache'sudo ufw statussudo systemctl status apache2这一步报错● apache2.service - LSB: Apache2 web server

2021-09-09 17:30:41 773

原创 端到端的语音识别

传统的语音识别系统中,往往包含多个独立的模块,通常有如下模块:特征提取模块,从输入的语音信号中提取特征,用于声学模型的建模以及解码过程,以MFCC为例,通过分帧、逐帧加窗、预加重、FFT计算功率谱、生成Mel Banks计算滤波输出、Log求倒谱、DCT离散余弦变换得到MFCC特征;声学模型,通常通过对词,音节、音素等基本的声学单元进行建模,生成声学模型,主要面临两个问题特征向量序列的可变长和音频信号的丰富变化性,其中可变长特征向量序列问题在学术上通常有动态时间规划(Dynamic Time War

2021-06-25 17:28:54 3109

原创 Espnet理解

2018年,Espnet团队开源了Espnet(end-to-end speech processing toolkit),可实现端到端 ASR和TTS系统。 [Espnet特色] (1)融合了Kaldi的数据处理和特征提取; (2)借助Pytorch跟Chainer,使用Python实现了端到端(E2E)模型; [Espnet模型] • CTC • Attention • RNN-T • Transformer...

2021-06-21 15:04:58 563

原创 语音识别基础知识理解

HCLG.Fst由四部分构成:G:语言模型WFST,输入输出符号相同,实际是一个WFST(acceptor接受机),为了方便与其他三个WFST进行操作,将其视为一个输入输出相同的 WFST.L:发音词典WFST,输入符号:monophone,输出符号:词;C:上下文相关WFST,输入符号:triphone(上下文相关),输出符号:monophone;H:HMM 声学模型WFST,输入符号:HMM transitions-ids,输出符号:triphone.将四者逐层合并,即可得到最后的图.H

2021-06-14 16:34:03 413 1

原创 ESPnet搭建记录

ESPnet 是一个端到端的语音处理工具包,主要专注于端到端的语音识别和端到端的文本转语音。ESPnet 使用chainer和pytorch作为主要的深度学习引擎,并遵循Kaldi风格的数据处理、特征提取/格式和配方,为语音识别和其他语音处理实验提供完整的设置。...

2021-06-12 17:06:28 668

原创 语音-MFCC,Fbank特征提取

提取12维MFCC特征和23维FBank import librosaimport numpy as npimport matplotlib.pyplot as pltimport librosa.displayfrom scipy.fftpack import dct# 绘制频谱图def plot_spectrogram(spec, note): fig = plt.figure(figsize=(20, 5)) heatmap = plt.pcolor(spec)

2021-05-28 17:00:14 2002

原创 KALDI-IO库的生成与读取

编译要求:cmake> = 3.0blas数学库之一:mkl(推荐)安装conda,并使用它来安装mkl:(conda install mkl默认情况下,mkl与conda一起安装)当cmake时,conda应该在你的路上地图集ubuntu:sudo apt-get install libatlas3-base当cmake时,它可能不会自动找到您的图集,因此您需要按照下面的“ #About”中的步骤设置math lib路径。加速框架(无需为“ macOS / Dar

2021-05-28 15:46:15 1594 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除