
音频处理
包括声源定位,波束形成 ,降噪 VAD 算法整理
芒果木有籽
音视频
展开
-
音频信号处理-波束形成笔记整理
传统波束形成:固定波束形成,自适应波束形成依赖目标场景:环境噪声特性。声场模型假设核心思想:当波束从0°方向入射时,两个麦克风采集到的信号之间无延时差, 语音会叠加增强。采集到的噪音会因为延时差不同或相关性低而没有叠加作用。从其他方向入射的语音也存在延时差,不会被叠加。 当波束15°/30°入射由于存在无法叠加作用,所以0°比其他入射方向增益大,信噪比得到了提升。增加其他方向信号时,通过调节采集的信号延时差为零,来叠加30°方向的信号。波束形成:时域方法(延...原创 2021-08-16 10:50:52 · 3517 阅读 · 0 评论 -
音频信号处理-降噪方法整理
谱减噪音谱是静态依赖对于估计噪声的准确性 由于存在频点估计误差,导致相应频点移植过多或过少,形成谱峰(音乐噪声)估计噪声进行平滑处理,平滑的增益要和SNR成正比根据非语音段估计得到噪声的幅度谱 通过谱减后的语音谱 进行傅里叶逆变换维纳滤波会残留白噪声从带噪语音端中减去经过维纳滤波后的降噪分量幅度谱,使用带噪语音相位,最后傅里叶逆变换使用MMSE(最小均方误差)准则迭代维纳滤波器中噪声抑制系数 来降噪对噪声的估计方法:VAD、全局幅度最小原理、矩阵奇异值分解原理...原创 2021-08-16 10:52:10 · 2855 阅读 · 0 评论 -
音频信号处理-语音端点检测整理 VAD
VAD判决条件 特征提取 语音/非语音频域特征:基频,频谱组成,频谱质心,谱差,谱密度,普衰减。判决特征类型:能量,频域,倒谱,谱差,谐波,长时信息1 能量:过零率,基于谱再低SNR情况下效果好2 语音谐波和长时语音特征:鲁棒性强判决准则:基于门限,统计模型,深度学习WebRTC 和speex :使用统计模型 对于高信噪比 效果良好WebRTC基于RNN模型的 VAD检测远场 基于统计模型 效果差很多 SDR 输入信号的功率 SNR输入信噪比 低两种方式提升.原创 2021-08-16 10:51:19 · 586 阅读 · 0 评论 -
音频信号处理-声源定位 DOA
1 基于到达时间差易受噪声 反射 吸收 散射 影响广义互相关GCC 最小均方误差LMS自适应滤波器对于多声源效果不好 抗噪 抗混响效果不好2基于最大输出功率 可控波束形成 SRP-PHAT计算复杂度高,抗混响能力强3,基于高分辨率谱图估计法 MUSIC多重信号分类 ESPRIT(旋转不变子空间)对信号进行协方差矩阵进行空间分解(特征值分解)需要噪声与信号不相关 CSSM WAVES 从窄带拓展到宽带 的声源定位为增加鲁棒性 :后处理 卡尔曼滤波 粒子...原创 2021-08-16 10:48:37 · 2916 阅读 · 0 评论 -
语音编解码-概念简介
音调 是人耳对声音调子高低的主观感受声音高低 是声波基频F0的高低音色 是谐波频谱和包络决定有限带宽网络传输 语音编码器 类型 编码格式 编码方式 码率 ITU G G711 A-LAW 欧洲 mu-Law 北美 日本 64kbps 8kHz 手机通信原创 2021-08-16 10:47:03 · 275 阅读 · 0 评论 -
音频信号处理-基于麦克风阵列的声源定位算法之GCC-PHAT
目前基于麦克风阵列的声源定位方法大致可以分为三类:基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于声音时间差(time-delay estimation,TDE)的声源定位技术。基于TDE的算法核心在于对传播时延的准确估计,一般通过对麦克风间信号做互相关处理得到。进一步获得声源位置信息,可以通过简单的延时求和、几何计算或是直接利用互相关结果进行可控功率响应搜索等方法。这类算法实现相对简单,运算量小,便于实时处理,因此在实际中运用最广。GCC-PHAT基于广义互相关函数的时延估计原创 2021-06-01 19:08:17 · 8737 阅读 · 0 评论