非典型废言
苯环碳碳键键能能否否定定论一
展开
-
瞬态噪声抑制算法流程解析
在语音增强领域,噪声通常可以分为稳态噪声(例如白噪声)和瞬态噪声(也称为非稳态噪声,如键盘声)。对于熟悉语音降噪的读者来说,通常的信号处理方法对稳态噪声有较好的效果,具体可以参考。然而,对于瞬态噪声,由于噪声变化迅速,传统的噪声估计算法难以准确跟踪,因此通常采用基于深度学习的方法来抑制瞬态噪声,参考。那么,是否可以使用信号处理方法来抑制瞬态噪声呢?答案是肯定的。为了不卖关子,先给大家展示一下信号处理方法在抑制瞬态噪声方面的实际效果,这或许会让你对信号处理的能力刮目相看瞬态噪声的抑制流程图如下所示。原创 2024-08-11 13:52:08 · 273 阅读 · 0 评论 -
解析自适应滤波回声消除
回声消除是语音信号处理领域比较常见的处理方法,基于自适应预测的回声消除是其中比较基础的一种。但在很多博客中却没有将其中的一些细节讲清楚,导致读者一头雾水,这里做一个详细的总结。回声分为线路回声和声学回声,本文重点关注声学回声。1. 回声产生及消除机制回声产生是由扬声器和麦克风之间的声波反射和声学耦合引起的。如下图所示,在电话会议系统中,扬声器输出信号由房间内的墙壁,地板和其他物体定向反射后产生的远端产生语音信号被近端的麦克风接收,导致回声被发送回远端。由于回声的存在干扰了正常的通信,因此人们原创 2020-07-05 18:42:36 · 2471 阅读 · 11 评论 -
WebRTC AEC中的舒适噪声算法
在回声消除技术中,舒适噪声生成(Comfort Noise Generator, CNG)算法是一种常用方法,用于减轻回声消除过程中带来的不适感和声音失真。CNG通过添加特定的噪声信号,模拟人耳的听觉特性,提升声音的自然度和舒适度。CNG算法的基本原理是将噪声信号与回声消除处理后的信号混合,使得混合信号在听觉上更加自然和舒适。其步骤如下:首先进行背景噪声估计,然后根据估计的背景噪声功率生成随机噪声,最后对生成的噪声进行加权处理。原创 2024-07-07 15:56:55 · 293 阅读 · 0 评论 -
LPC/LSP/LSF辨析
如下图所示,我们在20ms的语音频谱上绘制LSF(奇数用实线表示,偶数虚数表示)显而易见频谱中的峰值往往被狭窄的LSP夹在中间,但频谱中的局部极小值往往没有LSP在其周围。LPC模型可以视为一个全极点共振模型,它对信号的频谱包络进行建模,将信号的频谱包络表示为一系列极点,每个极点对应于信号的谐振频率。LSP具有良好的量化特性和高效性的表达性,因此在语音编码中被广泛运用。接着我们定义两个与A(z)相关的p+1阶的多项式P(z)和Q(z),这两个多项式表示人类声道的互连管模型,A(z)是它们的线性组合。原创 2024-02-19 17:18:41 · 600 阅读 · 0 评论 -
G.711语音编解码器详解
ADC 芯片的速度和精度指标是相互折中的。对应于不同的应用场景,ADC 芯片有着不同的设计架构,音频中常用的是Σ-Δ型,这里我们就不再展开了。波形编码的算法有很多种,常见的波形编码方式是脉冲编码调制(Pulse Code Modulation, PCM),其原理如下图所示,正弦波信号被均匀采样,对于每一个采样点用与其幅值最接近的值当做它编码后的值。值得注意的是,本文说的是语音编解码器,也就Speech codec,而常用的还有另一种编解码器称作音频编解码器,英文是Audio codec,它们的区别如下。原创 2023-10-15 16:06:16 · 1081 阅读 · 0 评论 -
如何生成丰富的啸叫样本?
用t表示离散时间索引,q表示离散时间时移操作,其中v(t)表示麦克风采集的源信号;在上述条件下,如果系统中的某个频率被激发,导致系统不稳定产生振荡,就会以啸叫的形式表现,啸叫通常出现在大约 200 到 5000 Hz 并且具有类似于单个正弦分量的非常窄带的特征,因为通常只有一个单个频率是不稳定。这里我们使用了两个不同的IR(IR的数据集有很多网上一搜一大把),由于啸叫的声音比较刺耳,这里就不放音频了,产生啸叫的频谱如下所示,可以看到第一个音频单频点发生啸叫,而第二个音频在多个倍频发生了啸叫。原创 2023-07-30 16:32:08 · 457 阅读 · 0 评论 -
都什么年代了,还在做传统波束成形
答案当然是肯定的,大名鼎鼎的NTT(日本电报电话公司,Nippon Telegraph & Telephone)提出了通过复高斯混合模型估计时频掩码和导向矢量,结合常用的MVDR(最小均方无畸变响应,Minimum Variance Distortionless Response)算法,在CHiME-3数据集上让ASR的WER下降了7个点。公式(6)的权重计算需要知道噪声的协方差矩阵,但有时无法估计出噪声的协方差矩阵,直接使用接受数据的协方差矩阵进行计算,即。此时,目标语音可以表示为。是噪声的协方差矩阵。原创 2023-03-26 19:04:35 · 733 阅读 · 0 评论 -
突破压缩极限的AI语音编解码器
语音编码的目的是在保持语音质量的前提下尽可能地减少传输所用的带宽,主要是利用人的发声过程中存在的冗余度和人的听觉特性达到压缩的目的。经过了多年的发展,目前语音编解码器大致可以分为以下几类:原创 2023-02-14 22:54:57 · 781 阅读 · 2 评论 -
语音相似度评价
语音相似度评价是用于测量语音之间的相似程度,常使用的算法是动态时间规整(Dynamic time warping,DTW),其原理是通过对齐时间序列来评估它们之间相似性。DTW是一种基于对齐的度量(alignment-based metric)与常见的欧式距离不同,DTW考虑到了时间维度上的信息,因此常用在信号处理领域,比如说话人识别,语音识别等。下面举个例子解释为什么要用DTW而不是欧式距离,这里我们有一个时间序列的数据集,包含了一些不同的样式。原创 2022-11-13 18:20:47 · 1709 阅读 · 0 评论 -
不使用FFT计算频段能量
当我们想计算某个频段能量时,FFT一般是首选项。但是当我们并不关注所有的频段,仅仅关注某一个频段,FFT较大的计算量使得其并不是一个较好的选择,那么有没有不用FFT就可以计算频段能量的方法呢?答案当然是肯定的,这就是我们今天要介绍的。原创 2022-10-10 22:34:21 · 692 阅读 · 0 评论 -
基于音频指纹的听歌识曲系统
听歌识曲,我想大家都不陌生。虽然不同的厂商识别率不同(可能是因为版权的原因),但是每个音乐APP都会有这么一个功能。我们以扣扣音乐为例,扣扣音乐听歌识曲功能比较丰富,不仅有基本的听歌识曲还有哼唱识别,识别到对应的歌曲后就直接返回对应的结果,如下图所示。这里我们只关注听歌识曲部分,这一功能通常使用音频指纹(Audio Fingerprinting)实现。其主要流程大致可以分为两步:1)离线的音频指纹提取;2)在线的音频指纹匹配。...原创 2022-08-15 23:11:04 · 1940 阅读 · 1 评论 -
使用互相关进行音频对齐
在计算一些音频指标如SNR的时候,我们需要音频信号与参考信号对齐,但有时候我们处理后的或者录制的音频并不是与参考信号对齐的,这就需要找到一种方法将它们对齐。原创 2022-07-24 21:30:25 · 1368 阅读 · 0 评论 -
WebRTC AEC 流程解析
WebRTC AEC由线性部分和非线性部分组成,个人感觉体现了理论和工程两个方面在算法落地上的作用,总的来说WebRTC AEC的效果还是不错的,但是我们知道AEC的效果与硬件关系很大因此需要很多的精力和时间去调试参数。...原创 2022-06-05 12:25:23 · 1967 阅读 · 0 评论 -
使用Pyroomacoustics模拟麦克风阵列录音
使用Pyroomacoustics模拟麦克风阵列录音原创 2022-06-05 11:49:17 · 1546 阅读 · 6 评论 -
WebRTC AGC 流程解析
自动增益控制(Automatic gain control, AGC)是控制语音信号的增益稳定在指定水平的算法,可以避免语音忽大忽小引起的听觉不适。AGC作为音频3A算法之一,似乎并没有像ANR和AEC那样被较多的关注,但我个人觉得这是一个十分有趣的算法,因此在这里做一个流程解析。排版不好是因为优快云页面编辑器太垃圾了1. IntroductionWebRTC的AGC算法有以下几个模式,顾名思义,第一个模式是什么都不改变,但是会作削顶保护,然后是模拟增益自适应和数字增益自适应以及固..原创 2022-03-21 23:02:45 · 2524 阅读 · 0 评论 -
WebRTC ANR 流程解析
单通道的降噪大致可以分为谱减法、维纳滤波器、子空间、统计模型和深度学习这几类。其中谱减法和深度学习降噪前面已经介绍过了,这里介绍WebRTC的单通道降噪方法,其核心是维纳滤波器。WebRTC ANR具体细节需要有一定的噪声估计基础才能理解,因此这里只介绍整体流程,算法原理有时间再细致介绍。单通道的降噪大致可以分为谱减法、维纳滤波器、子空间、统计模型和深度学习这几类。其中谱减法和深度学习降噪前面已经介绍过了,这里介绍WebRTC的单通道降噪方法,其核心是维纳滤波器。WebRTC ANR具体细节需要有一定的噪声原创 2022-01-09 19:59:43 · 1688 阅读 · 0 评论 -
基于卡尔曼滤波器的回声消除算法
前面有介绍了卡尔曼滤波器,但是由于篇幅原因没有介绍其具体的应用,这里我们介绍使用卡尔曼滤波器做回声消除的过程。我们知道Speex和WebRTC的回声消除都是基于NLMS算法的,但是也有一些公司使用了卡尔曼滤波器进行回声消除。真正的回声消除还包括滤波器后的非线性部分,今天只讨论线性回声消除部分。回声消除回声消除以前有讲过,这里简单回顾一下,假设帧长为L远端信号为那么麦克风采集的信号可以表示为其中v(n)是近端信号,h(n)为声音从扬声器到麦克风整个系统的冲激响应回声消除原创 2021-12-13 22:49:30 · 4331 阅读 · 3 评论 -
WebRTC VAD流程解析
语音活动检测算法大致可以分为三类,第一类就是最简单的基于阈值的判别方法,这个以前讲过了,参考语音活动检测;第二类是WebRTC使用的基于GMM的检测方法;第三类就是基于深度学习的检测方法,这个也讲过了,参考使用LSTM进行端点检测。废话不多说,开始进入正题。IntroductionWebRTC VAD支持8/16/24/32/48kHz采样率,不过都会重采样到8kHz进行计算,每一帧长度可以为80/10ms、160/20ms和240/30ms三种。VAD具有如下的四种模式,分别表示通用模式、低比..原创 2021-09-12 21:50:11 · 3287 阅读 · 1 评论 -
分帧,加窗和DFT
我们知道语音信号特性是随时间变化的,是一个非平稳随机过程。但是,从另一方面来看,语音虽然具有时变的性质,在短时间内其特性可以视为是稳定的。这是因为,人的发声器官的肌肉惯性,从一个状态瞬间转换到另一个状态是不可能的。在一个短时间内语音特性保持不变称为语音的短时平稳特性,贯穿于语音信号全过程的是短时分析技术。短时方法是用平稳信号的处理方法分析非平稳信号的关键,而进行短时分析的过程一般包括分帧、加窗和DFT。Step1.分帧语音信号分帧的目的是把若干个语音采样点分为一帧,在这一帧内,语音信号的特...原创 2021-08-08 19:56:39 · 2554 阅读 · 2 评论 -
语音可懂度评估(一)——基于清晰度指数的方法
目录01语音可懂度02清晰度指数03语音可懂度指数04扩展语音可懂度指数05基于清晰度指数评估可懂度的缺点前面我们介绍了语音质量的评价标准,今天我们关注语音客观评价的另一个重要指标——可懂度(Intelligibility)。语音可懂度的评估大致可以分为基于清晰度指数、基于语言传输指数和基于相干性指数三类,我们今天先介绍第一类。01语音可懂度可懂度是在给定条件下对语音理解能力的一种度量。如果说语音质量关注的是“how”,那么可懂度关注的则是“what”。一般可以通...原创 2021-05-02 22:50:48 · 4340 阅读 · 2 评论 -
生成下雨的声音
1. 下雨天好睡觉今天是世界睡眠日,中国 3 亿人有睡眠障碍,有关数据显示收入越高睡眠越少。虽然每个人在床上翻来覆去难以入睡的原因各不相同,但是对于下雨天和睡觉更配这件事我相信没有人会否定。为什么下雨天更适合睡觉呢,其原因有三:其一,下雨天阳光被云层挡住,植物光合作用变弱,导致空气中氧气含量减少从而使得人们感觉到困;其二,下雨天乌云遮住了太阳,褪黑素开始分泌,让人们睡个好觉;其三,落雨声是白噪声在所有频段功率均匀分布,让人们听起来比较舒服。为了睡个好觉,前两个条件我们不好创造,但是下雨的声音我们可以试试原创 2021-04-03 22:52:49 · 692 阅读 · 0 评论 -
语音变速和变调的实现
实现变声的效果主要有两种方式,一种是对语音的本身进行修改,通过修改语音的一些特性达到变声的效果;另一种则是语音克隆,直接将输入语音特性转化成模板的语音特性。这里我们介绍第一种方式,语音克隆后面有机会再介绍。其实如果没有特定的变声需求,直接用不同的采样率读取原来的文件就会产生变声效果。基音同步叠加(Pitch Synchronous Overlap Add, PSOLA, 发音是:劈死欧拉)是一种将语音在频域(FD-PSOLA)或者时域(TD-PSOLA)进行调整的算法,经常用于语音波形合成,这里将.原创 2021-02-22 21:55:37 · 2595 阅读 · 2 评论 -
音频数字水印的嵌入和提取
提到水印大家的第一反应都是下图这样的,在图片上有个大大的白色的字。但是数字水印和这种水印稍微有点区别,数字水印不仅仅可以嵌入在图片中,在各种多媒体数据中均可以嵌入水印,以保证生产方的知识产权和版权。音频数字水印,顾名思义就是把数字水印嵌入到音频中去。由于音频载体的特殊性,音频数字水印要保证数字水印的嵌入过程不会对音频本身造成较大的失真,本文就介绍数字水印中的一基本的技术。1. 最低有效位前面说到音频数字水印不能对语音质量造成较大的损害,不然语音失真产品就卖不出去了。为了同时兼顾不可感知.原创 2021-01-01 19:53:54 · 3862 阅读 · 1 评论 -
以任意频率重采样语音信号
目录1. Direction Interpolation2. Lagrange Interpolation3. Sine Interpolation4. 重采样结果语音信号重采样是语音信号处理中常用的方法,许多语音信号处理算法只支持一两种采样频率,当使用其他采样频率的语音数据送过来时,就可以使用重采样的方法使得其符合语音算法的采样频率。重采样分为上采样和下采样,其原理都是通过插值来实现的,常用的插值方法有直接插值、拉格朗日插值和正弦插值,下面分别进行介绍。1. Direct.原创 2020-12-06 12:36:40 · 1321 阅读 · 0 评论 -
十种客观评价语音质量的方法
目录1. 基于SNR的语音质量评价标准1.1 SNR和分段SNR1.2 频域SNR2. 基于LPC系数的语音质量评价标准2.1 对数似然比距离2.2 Itakura–Saito距离2.3 倒谱距离3. 基于感知的语音质量评价标准3.1 加权谱倾斜测度3.2 PESQ4. 总结语音客观评价标准一般分为语音质量评价和语音可懂度评价,这里先介绍语音质量评价。提起语音质量评价,大家第一个想到的肯定是信噪比这个十分常用的评价标准以及它的相关衍生标准,这里总结一些常用的语原创 2020-11-07 11:35:54 · 4339 阅读 · 1 评论 -
语音降噪初探——谱减法
目录1. 谱减法原理2. 谱减法的实现3.Berouti谱减法的实现语音降噪是语音信号处理的初始步骤,目前已经有很多成熟的算法。而谱减法作为经典的降噪算法实现简单,运行处理快,被广泛的应用在语音降噪领域。1. 谱减法原理谱减法顾名思义,就是用带噪信号的频谱减去噪声信号的频谱(幅度谱和功率谱均可)。谱减法基于一个简单的假设:假设语音中的噪声只有加性噪声,只要将带噪语音谱减去噪声谱,就可以得到纯净语音,这么做的前提是噪声信号是平稳的或者缓慢变化的。提出这个假设就是基于短时谱(25ms).原创 2020-09-26 15:36:13 · 19515 阅读 · 2 评论 -
使用AMR编解码器生成VAD的标签
目录1. AMR编解码器简介2. AMR语音帧格式3. VAD标签VAD的标签一般通过语音编解码器来生成,因为这些编解码器已经在实际使用中得到验证了,因此具有较强的代表性。一般用作VAD性能比较的编解码有AMR和G.729B,很多论文中也以它们作为Benchmark。最近刚好有好几个人在问怎么生成VAD的标签,这里我做个简单的实现供大家参考。1. AMR编解码器简介这里简单介绍下AMR编解码器,AMR编解码器有窄带和宽带两种模式。其中窄带编码模式有8种,编码速率从4.75到12.2k原创 2020-09-26 15:16:55 · 832 阅读 · 1 评论 -
使用TDOA进行声源定位
目录1. TDOA简介2. 时延估计3. 定位估计4. 声源定位根据现有的研究成果来看,声源定位(Sound Source Localization, SSL)存在以下几种方法:基于最大输出功率的可控波束成形的定位方法、基于高分辨谱估计的定位方法和基于到达时延差(Time Difference of Arrival,TDOA)估计的定位方法,以及基于机器学习的方法。其中基于时延估计的定位方法计算量小,实时性好,实用性强等特点,我们就先介绍这种较为简单的声源定位算法。基于TDOA的方法一般原创 2020-09-19 17:36:08 · 20982 阅读 · 20 评论 -
使用XGBoost进行环境声音分类
目录1.环境声音分类特征1.1 梅尔频率倒谱系数1.2 过零数/过零率1.3 谱对比度2. 模型训练不同环境中的声音具有不同的意义,而声音是人类感知环境的重要信息之一。对环境声音分类可以帮助机器更好的理解当前的工作环境对后续判决提供有用的信息。而环境声音复杂多样,长度差异大,动态范围广等特点,具有一定的判别难度,本文使用机器学习的方法来对环境音进行分类。1.环境声音分类特征环境音多种多样,不同的环境语音具有较大的差别,如何提取有效的特征是环境音分类的关键。由于本文采用的是..原创 2020-09-06 21:35:49 · 1265 阅读 · 1 评论 -
说话人性别识别
让人类来分辨说话人的性别是件十分简单的事情,对于机器来说也不是什么难事,下面介绍使用BiRNN进行说话人性别识别。1. 性别判定特征说道男女声音的差异很多人第一反应就是音高,这里的音高指的是基音的频率,我们采用基音周期作为判决男声女声的特征之一,如下图所示。我们可以看到女性的基音周期和男性基音周期有一定的差别。下一个特征我们使用常用于语音信号处理的梅尔频率倒谱系数,这里我们使用13个梅尔滤波器然后将输出结果进行一阶差分得到12维动态的梅尔频率倒谱系数,因此我们的MFCC特征总共有13+12=原创 2020-06-07 20:19:53 · 1838 阅读 · 1 评论 -
使用LSTM进行端点检测
语音信号中一般有50%的时间是静音,给语音信号处理带来了额外的运算开销。在对语音信号进行处理的时候一般会进行端点检测,有的地方也叫语音活动检测(Voice Activity Detection, VAD),目的是将有语音活动的部分提取出来,忽略静音部分,这样节省了很大的运算量。再者,静音部分本身也没有什么重要的意义。我们前面讲过使用双门限来进行语音活动检测,门限值一般依靠经验进行设定,虽然简单快捷但是精度不够,下面介绍一种使用循环神经网络中的LSTM单元进行端点检测的方法。1.端点检测的特征传统的.原创 2020-05-15 16:42:32 · 2025 阅读 · 2 评论 -
使用CNN进行简单的指令识别
目录1. 加载数据2. 模型训练3. 样本测试在语音信号处理领域有时候并不需要对较长的句子进行处理或者识别,仅仅对几个简单的指令识别就可以开展后续的工作。这个任务比上次语音增强的要稍微复杂一些,因此使用Pytorch框架来实现Demo。1. 加载数据由于使用的不是标准数据集,需要将自己的数据准备成Pytorch可以读取的形式。数据集关注微信公众号语音算法组并后台回复指令识别就可以获得。下面我们将自己的数据转化为Pytorch读取的格式。首先我们的数据集中的指令为:command原创 2020-05-13 21:58:53 · 1121 阅读 · 1 评论 -
生成有噪声/回声/混响/啸叫的混合语音样本
目录1. 生成带有噪声的混合样本2. 生成带有回声的混合样本3. 生成带有混响的混合样本4. 生成带有啸叫的混合样本进行语音信号处理的时候需要大量的语音样本,有时候手上并没有那么多从现实中收集到的语音数据,这时候只能自己生成语音样本了。1. 生成带有噪声的混合样本首先我们了解下时域信噪比:上式信噪比单位为dB。如果我们想生成q dB的混合语音,调整噪声能量的大小为原来的α倍,可以通过下式计算:有了上面两个公式我们就可以合成不同信噪比的混合语音样本了。带噪声...原创 2020-05-11 16:06:27 · 1978 阅读 · 2 评论 -
DNN单通道语音增强(附Demo代码)
目录1. 基于映射的语音增强1.1 训练阶段:1.2 增强阶段:2. 基于掩蔽的语音增强3. Demo效果以及代码传统的语音增强方法基于一些设定好的先验假设,但是这些先验存在一定的不合理之处。此外传统语音增强依赖于参数的设定,人工经验等。随着深度学习的发展,越来越多的人开始注意使用深度学习来解决语音增强问题。由于单通道使用场景较多,本文就以单通道语音增强为例。目前基于DNN单通道大致可以分为两种方法,第一种寻求噪声语音谱与纯净语音谱的映射(Map),另一种则是基于掩蔽(Mask)的方原创 2020-05-10 10:43:47 · 8519 阅读 · 27 评论 -
基于Mask的语音分离
目录1. 时频掩蔽2. 语音分离Mask这个单词有的地方翻译成掩蔽有的地方翻译成掩膜,我个人倾向于掩蔽这个翻译,本文就用掩蔽来作为Mask的翻译。1. 时频掩蔽我们都知道语音信号可以通过时域波形或者频域的各种频谱来表示,此外语谱图可以同时展示时域和频域的信息,因此被广泛应用,如下图所示。现在我们假设有两段语音信号,一段是音乐信号,另一段是噪声,它们混合在一起了,时域波形和对应的语谱图分别如下图所示:如果我们想将音乐信号从混合信号中抽离(这个过程叫语音分离..原创 2020-05-08 19:09:51 · 17409 阅读 · 7 评论 -
语音分帧后的重组还原
我们在对语音信号进行处理的时候经常需要对语音进行分帧,而在分帧的过程中帧与帧之间会有一些重叠部分。在对每一帧处理之后我们需要将语音还原成原来的形式。下面详细说明语音分帧过程及如何还原重组语音。如下图所示,在分帧过程中,帧长为len_,重叠长度为len1, 帧移为len2。在对语音信号处理后,我们会得到一个帧长为len_的处理后的语音帧,如果我们将这个整个帧重组原始语音的话,在处理后的第二帧里面...原创 2020-04-25 14:22:40 · 2763 阅读 · 0 评论 -
librosa.stft的输出
目录1. 函数变量及其返回值2. hop_length & win_length详解2.1 使用默认参数2.2 hop_length设置为语音帧长2.3hop_length设置为nfftlibrosa是语音信号处理中常用的一个python库,其中的stft可以对语音信号进行短时傅里叶变换。我们知道librosa.stft是一个矩阵,下面研究下这个矩阵的含义。1...原创 2020-04-24 21:33:17 · 18742 阅读 · 8 评论 -
语音信号同态与复倒谱分析
目录1. 同态分析2.复倒谱与倒谱分析3. 同态声码器1. 同态分析同态信号处理也称为同态滤波,其目的是将卷积关系变换为求和关系的分离处理。同态滤波是非线性滤波但服从广义叠加原理,即几种不同原因的综合所产生的效果等于这些不同原因单独产生效果的累加,叠加原理如图所示。同态系统是指通过非线性变换将非线性组合变换为线性组合以便于处理的一类系统。同态系统分为乘积同态和卷积同态...原创 2020-04-23 16:08:30 · 3342 阅读 · 0 评论 -
语音信号频域分析
目录1. 短时傅里叶变换2. 短时傅里叶变换与其他的关系3. 短时傅里叶变换的采样率4. 语谱图1. 短时傅里叶变换傅里叶变换可以将信号转为由正弦信号叠加或者复指数的形式,傅里叶变换的相关内容可以参考这里。和时域分析一样,由于语音是时变信号,我们给信号加窗得到短时傅里叶变换的结果,然后进行分析。短时傅里叶变换(short time Fourier transform,...原创 2020-04-19 11:45:48 · 4029 阅读 · 1 评论 -
语音信号时域分析
目录1. 短时能量2. 短时幅值3. 短时过零率4. 短时自相关5. 短时平均幅差语音信号的时域分析是直接对语音波形进行处理或者估计得到一系列随时间变化的特征。时域分析建立在语音的短时不变性的基础之上,即在较短时间内语音各种特性是不变的。为了进行短时分析,需要将语音进行分帧,每一帧会有部分重叠,如下图所示。一般通过窗函数将语音分帧,常用的窗函数有矩形窗和汉明窗,其中...原创 2020-04-17 11:42:45 · 4365 阅读 · 1 评论