声音识别教程_z小白的博客-优快云博客

声音识别教程

关注

文章平均质量分 55

声音识别是模式识别中非常重要的一个方向，通常包括语音识别、音乐检索和声音场景（环境声）识别等。传统的声音识别方法一般包括提取MFCC特征，采用HMM-GMM建模，预测。随着深度学习的发展，声音识别的性能得到了极大的提升。本专栏就带你体验一下声音识别的整个流程...

关注数：文章数：12 文章阅读量：283031 文章收藏量：1449

作者: z小白

深度学习，声音识别，声源定位，音视频联合

展开

专栏收录文章

7. 声音数据增强

数据集和代码均已上传到Github中，欢迎大家下载使用。Github地址：https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助，请不吝贡献您的小星星Q^Q.数据增强这篇博客主要在音频信号处理领域两个基础的数据增强方法：Time Stretch 和 Pitch Shift。顾名思义，Time S...

原创 2019-05-24 10:17:52 · 15976 阅读 · 4 评论
深度学习在音频信号处理领域中的进展（截止至2019年5月）

最近在arXiv上看到一篇关于深度学习在音频信号处理中的进展的文章，感觉写的不错，所以根据自己的理解和大家分享一下。如果有些地方博主理解的不对，或者解释不清，可以在下面评论，博主会一一回复。论文链接：Deep Learning for Audio Signal Processing摘要这篇文章是奥尔堡大学，Google等几个研究机构的一篇关于深度学习在音频信号处理中的进展的综述。这篇文...

原创 2019-05-21 01:13:42 · 35168 阅读 · 17 评论
音频特征-梅尔频率倒谱系数（MFCC）详解

总结一些关于MFCC写的比较好的资源：1. MFCC提取过程讲解的非常详细，形象（图表多）：http://blog.youkuaiyun.com/zouxy09/article/details/91567852. MFCC原理上讲解的很简洁，有基于MATLAB和HTK的实现代码：http://blog.youkuaiyun.com/jojozhangju/article/details/18678861

原创 2018-02-03 14:28:47 · 26077 阅读 · 0 评论
librosa窗函数

librosa使用的是scipy.signal.get_window(window, Nx, fftbins=True)进行窗函数的调用。支持的窗函数列表：

原创 2018-06-11 20:26:41 · 2413 阅读 · 0 评论
音频处理库—librosa的安装与使用

目录序言一、libsora安装pypicondasource二、librosa常用功能核心音频处理函数音频处理频谱表示幅度转换时频转换特征提取绘图显示三、常用功能代码实现读取音频提取特征提取Log-Mel Spectrogram 特征提取MFCC特征绘图显示绘制声音波形绘制频谱图序言Librosa是一个用于...

原创 2018-03-18 23:00:58 · 145941 阅读 · 43 评论
Ubuntu16.04安装Kaldi toolkit

一、安装依赖项$ sudo apt-get install autoconf automake libtool subversion libatlas-dev libatlas-base-dev zlib1g-dev gawk git gfortran gcc g++二、在github（https://github.com/kaldi-asr/kaldi）上下载最新版本的kaldi，并解压缩。

原创 2018-01-24 22:40:28 · 1735 阅读 · 0 评论
6. 测试模型

数据集和代码均已上传到Github中，欢迎大家下载使用。Github地址：https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助，请不吝贡献您的小星星Q^Q.测试模型这部分比较简单，一共包含：读取测试样本、导入模型、测试模型几个步骤。直接看代码：# -*- coding: utf-8 -*...

原创 2018-12-12 16:59:32 · 6342 阅读 · 0 评论
5. 训练模型

数据集和代码均已上传到Github中，欢迎大家下载使用。Github地址：https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助，请不吝贡献您的小星星Q^Q.训练模型我们采用交叉验证（5-fold cross validation）的方式训练模型，即预先将数据集划分为5个不重叠的子集，每次采用其...

原创 2018-12-12 16:50:49 · 7694 阅读 · 4 评论
4. 构建模型

数据集和代码均已上传到Github中，欢迎大家下载使用。Github地址：https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助，请不吝贡献您的小星星Q^Q.构建模型本节使用keras搭建一个简单的CNN模型。该CNN模型包括3个卷积层、3个池化层、2个全连接层，中间层激活函数使用ReLU，最后...

原创 2018-12-12 16:37:38 · 9538 阅读 · 3 评论
3. 特征提取

数据集和代码均已上传到Github中，欢迎大家下载使用。Github地址：https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助，请不吝贡献您的小星星Q^Q.特征提取对于音频特征，相信稍微了解一点的童鞋们都知道有个东西叫MFCC。MFCC全称为Mel Frequency Cepstrum Coe...

原创 2018-12-12 16:27:49 · 13323 阅读 · 17 评论
2. 数据分析

数据集和代码均已上传到Github中，欢迎大家下载使用。Github地址：https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助，请不吝贡献您的小星星Q^Q.数据分析本节针对ESC-10数据集进行基本的数据分析，包括数据样本数，数据类别数，每类声音样本数等信息。并且对每类样本的声音波形，功率谱进...

原创 2018-12-12 15:57:15 · 8352 阅读 · 7 评论
1. 数据集准备和工具安装

数据集和代码均已上传到Github中，欢迎大家下载使用。Github地址：https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助，请不吝贡献您的小星星Q^Q.简介声音识别指的是将声波转化为某种特定描述的一种技术，通常包括语音识别、声纹识别、声音场景识别等。目前的声音识别技术主要是机器学习、深度...

原创 2018-12-12 14:58:16 · 10481 阅读 · 18 评论

声音识别教程

作者: z小白

7. 声音数据增强

深度学习在音频信号处理领域中的进展（截止至2019年5月）

音频特征-梅尔频率倒谱系数（MFCC）详解

librosa窗函数

音频处理库—librosa的安装与使用

Ubuntu16.04安装Kaldi toolkit

6. 测试模型

5. 训练模型

4. 构建模型

3. 特征提取

2. 数据分析

1. 数据集准备和工具安装