
信号处理
文章平均质量分 65
平凡的兵
AI的实践者
展开
-
语音增强学习路线图Roadmap
语音增强算是比较难的研究领域,从入门到精通有很多台阶,本文介绍一些有价值的书籍,值得反复阅读。主要分为基础类和进阶类书籍,大多都是理论和实践相结合的书籍,编程实践是抓手,让知识和基础理论变扎实。原创 2023-02-19 21:59:31 · 767 阅读 · 0 评论 -
基于python的音频信号处理
基于python的信号处理,列表和音频的处理,如stft、istft、vad、导向矢量等等原创 2023-02-15 23:26:11 · 2165 阅读 · 0 评论 -
Diffraction、Scatterring、Diffusion、Reflection 衍射、散射、干涉、折射 傻傻分不清
散射,蓝色的天空可以用散射理论解释。在构成冰的空气分子或水分子的尺度上,比光的波长(0.4到0.8 μm之间)小得多的物体(纳米级),散射主要是短波,因此选择了蓝色。由于瑞利散射,冰洞中的蓝色。,衍射,是指波遇到障碍物时偏离原来直线传播的物理现象。在经典物理学中,波在穿过狭缝、小孔或圆盘之类的障碍物后会发生不同程度的弯散传播。Absorption,声音被物体吸收。Interference,干涉。Reflection,反射。Refraction,折射。原创 2023-01-31 08:49:05 · 2902 阅读 · 0 评论 -
Deep Neural Networks for Multiple Speaker Detection and Localization
GCC-PHAT对频点进行累加,从而丢失了T-F稀疏特性。基于此,提出GCC-PHAT on mel-scale filter bank (GCCFB).制作较大数据库,包括回放和真人录制,用于开发和评估人机交互中的SSL问题。提出基于似然输出的编码,可以处理任意个数声源;麦克个数为M,则系数个数为M(M-1)/2。探索使用子带互相关信息作为输入特征;提出三种模型结构处理多声源定位;基于神经网络的声音定位方法汇总。网络输出编码为360维向量。翻译 2023-01-28 21:13:43 · 162 阅读 · 0 评论 -
Iterative sound source localization for unknown number of sources
声源定位的目的是通过观察的多通道音频进行声源的DOA估计。实际应用中存在声源个数未知的问题,当前的方法通过预测基于似然的编码(例如空间谱)以及采用预先确定的阈值来检测声源个数和DOA值。然而,该类基于阈值的方法不稳定,依赖阈值的选取。为了解决该问题,本文提出一种迭代声源定位方法ISSL,通过迭代的方法来确定声源个数,直至迭代条件终止。针对未知声源数量的迭代声源定位方法。翻译 2023-01-28 11:28:38 · 331 阅读 · 0 评论 -
RTF、RIR、Steering Vector傻傻分不清
RTF: Relative transfer function,相对传递函数。RIR: Room impulse response,空间冲击响应。Steering vector: 导向矢量。原创 2023-01-27 19:02:04 · 1209 阅读 · 0 评论 -
Robust Phase Replication Method FOR SPATIAL ALIASING PROBLEM IN MULTIPLE SOUND SOURCES LOCALIZATION
相位解卷绕算法可以分为三类:Firstly, sequential unwrapping algorithms。大部分多通道声源DOA估计算法遭受空域混叠问题。当频率超过混叠频率,会产生IPD卷绕问题。本文提出一种实时的算法解决IPD卷绕问题。空间混叠在窄带声源定位领域是一大难题。空域混叠频率和麦克风间距和声源的入射角有关。避免 空域混叠的方法有两种,一是减小麦克风间距,一是相位解卷绕。传统的方法通过估计不同麦克风的Time Difference Of Arrival (TDOA, Δ。翻译 2023-01-25 14:29:27 · 176 阅读 · 0 评论 -
Multiple Sound Source Localization Based on IPD in All Frequencies with Spectral Masks
声源定位领域采用最重要的特征是频域相位差IPD。然而,由于空域混叠(特别是高频部分),对IPD的利用有限,特别是麦克风间距较大时。近期,提出了相位替代方法,声源定位任务采用最多的特征是IPD,然而,高频相位卷绕是个问题。一些算法尝试解决相位卷绕,从而解决空域混叠问题。1.2 空域卷积和相位替代法。观察到的相位差计算,翻译 2023-01-24 22:10:12 · 214 阅读 · 0 评论 -
信号处理之回声消除
典型回声消除框架如图1。远端信号x从听筒或喇叭spk播出,并经过空间传播,被麦克风mic接收,近端说话信号也进入麦克风mic,这样麦克风接收到的就是两个信号的叠加,即d。自适应滤波器w对x进行处理获得y,d和y的差值作为误差,传递给自适应滤波器,进行迭代更新。图1:回声消除框架远端参考信号(上图far-end signal)经过自适应滤波器w远端参考信号经过空间传播(即经过Room Impulse Response)得到,目标误差。原创 2022-10-16 20:36:51 · 1768 阅读 · 0 评论 -
基于FFT的快速FIR
为了使快速卷积技术能得到有效的结果,前向和反向FFT的尺寸必须大于等于L ,采用N点FFT,N>L, 对h(n)和x(n)进行pad零,使其长度为N。y(n)为反向FFT前L个点的实数部分。如果x(n)的长度比较长,需要进行分段处理,导致时域混叠误差(time domain aiasing error),有如下两种方案避免时域混叠问题。下图展示了普通时域卷积和快速卷积乘加次数对比,显然,快速卷积具有相当优势。(1) 将h(n)和x(n)的长度扩充为N,不够部分补零。为Q-tap FIR,原创 2022-10-16 19:42:09 · 576 阅读 · 0 评论 -
信号处理之声源定位
由于噪声和混响的存在,导致互相关函数的峰值不明显,导致估计不准,考虑采用广义互相关方法。即先将时域转换为频域,在频域进行归一化操作,达到降噪的效果,再傅里叶逆变换至时域。本文讨论,通过麦克风阵列,判断声音的方位(距离、方位角azimuth和俯仰角elevation)。根据Wiener-Khichine定理,互功率谱(一般用大写字母。互相关函数取最大值时的p值,即对应的时延,此时。信号源s到观察信号y1和y2的时间差为。可以采用如下方法计算时间差。1. 什么是声源定位?附上Matlab代码。原创 2022-10-15 10:37:53 · 6862 阅读 · 2 评论 -
散射噪声仿真理论和实践(理论篇2)
本文提出一种算法,生成任意一维或三维阵列信号,该信号来自球形和圆柱形同性噪声场。更进一步,研究噪声源的个数对生成传感器信号准确性的影响。章节2指出,同性噪声场可以通过球体和圆柱体表面均匀分布的噪声源获得,分别生成3D和2D散射噪声场。在章节4,比较两种空间相干性。章节5,我们展示生成的传感器信号的使用,例如分析滤波求和波束形成器的方向索引。沿着z轴的所有圆环,对生成的传感器信号贡献相同。这就是著名的理论空间相干函数,针对球形同性噪声和全向传感器来。同性假设表面信号的功率谱密度是相等的,同位置无关,即。原创 2022-10-03 22:01:33 · 1264 阅读 · 0 评论 -
散射噪声仿真理论和实践(理论篇1)
现实生活中的噪声场通常采用球形或圆柱形噪声场来逼近。噪声场的特性可以采用空间相干函数来描述。针对仿真的目的,信号处理领域的研究者通常要求传感器信号展现一种特别的空间相干特性。另外,他们通常要求一种特别的噪声,例如时间相关噪声、babble语音或者工厂噪声。已有算法不能生成此类传感器信号,列入随机噪声场中的babble语音和工厂噪声。本文提出一种高效算法,用于生成约定空间相干约束下的多传感器信号。该算法有两大优点,第一,对空间相干函数没有约束。第二,为了生成M个传感器信号,算法仅需要M个互相独立的噪声信号。原创 2022-10-03 14:47:51 · 890 阅读 · 0 评论 -
语音领域的自适应滤波
自适应滤波的基本原理比较直观,具体可以参考[1]主要说明下期望信号的理解,针对语音增强任务,期望信号就是当前时刻的信号;针对回声消除任务,期望信号就是参考信号。[1]https://zh.wikipedia.org/wiki/%E8%87%AA%E9%80%82%E5%BA%94%E6%BB%A4%E6%B3%A2%E5%99%A8......原创 2020-12-26 12:16:52 · 500 阅读 · 0 评论 -
语音领域的快速傅里叶变换FFT
语音领域,绕不开FFT,无论是语音增强还是语音识别。语音识别时,将时域信号转换为频域信号,起到了特征提取的作用。语音增强时,如去回声和去混响,FFT的算法理解和实现可以参照[1~3]FFT的窗长值得探究,语音识别,窗长是25ms,按照16K采样,也就是400个采样点,但是会扩充到512个采样点,而且是采用直接补112个零。语音增强领域,窗长一般是32ms或64ms,按照16K采用,对应512个或1024个采样点。[1]https://zhuanlan.zhihu.com/p/..原创 2020-12-26 10:56:48 · 5009 阅读 · 1 评论 -
语音领域的波束形成Beamforming小结
波束形成是个很有意思的方向,应用从雷达领域到5G领域,近几年在语音识别领域也大放光彩。本文主要聚焦于波束形成在语音领域的应用。对于单麦克风来说,没有波束的概率;波束形成主要针对多麦克风阵列,融合多个通道的数据,对噪声和干扰方向进行抑制,增强目标方向的信号。一种方式是找到目标信号的方向,一般用导向矢量(steering vector)进行表示,基于此增强目标信号;一种方式是找到干扰信号的方向,进行抑制,剩下的就是目标信号。本文介绍delay and sum波束形成、MVDR、GEV和GSC波束形成方法。原创 2020-12-20 21:39:22 · 9437 阅读 · 5 评论 -
波束图(beam pattern)的python和matlab实现
【代码】波束图(beam pattern)的python和matlab实现。原创 2022-08-21 22:30:39 · 11463 阅读 · 4 评论 -
数字信号处理python代码(陈后金老师书籍第二章)
数字信号处理方面的python代码太少。鉴于python语言的流行,以及matlab对中国的不友好,准备将数字信号处理(陈后金老师版本)里的matlab代码全部python化。原创 2022-07-01 22:52:22 · 711 阅读 · 0 评论 -
数字信号处理python代码(陈后金老师书籍第一章)
数字信号处理方面的python代码太少。鉴于python语言的流行,以及matlab对中国的不友好,准备将数字信号处理(陈后金老师版本)里的matlab代码全部python化。原创 2022-07-01 22:11:17 · 1247 阅读 · 0 评论 -
模拟频率、数字频率、模拟角频率之间的关系
模拟角频率和数字角频率的关系_博客-优快云博客_数字角频率和模拟角频率的关系概念: 模拟频率f:每秒经历多少个周期,单位Hz,即1/s;模拟角频率Ω:每秒经历多少弧度,单位rad/s;数字频率w:每个采样点间隔之间的弧度,单位rad。表达式: 模拟频率f: cos(2pi*f*t) 模拟角频率Ω: cos(Ω*t);数字频率w: cos(w*n)=cos(Ω*n*T) [T为采样间隔时间]。关系: Ω=2pi*f;w =Ω*T。原创 2022-01-08 22:24:36 · 4878 阅读 · 0 评论