多视角音频场景分析与声源处理技术解析
1. 声源分离
声源分离可通过最大似然(ML)或最大后验(MAP)准则实现,之后利用多通道维纳滤波达成。在盲分离场景和利用声源先验知识或混合过程信息的有信息场景中,都有相关研究进展。例如在一些场景中,利用声源自身的先验知识或混合过程的特性,能更好地引导声源分离。
2. 声音事件检测
不同声音事件通常在声音场景的不同空间位置发生,麦克风阵列处理获得的空间线索对声音事件检测(SED)至关重要。比如,通过声道间到达时间差(TDOA)推断声源方向的信息,可用于将家庭环境划分为包含不同类型声音事件的区域。在实验中,将这些空间特征与经典的梅尔频率倒谱系数(MFCC)结合,能提高事件分类的准确性。受双耳处理的启发,从立体声录音中提取立体声对数梅尔带能量来训练神经网络,可获得类似于双耳声强差(IID)的有意义线索。
3. 声源定位与跟踪
声源定位与跟踪旨在估计和跟踪声音场景中目标声源的位置,在监控、视频会议等领域有重要应用。例如在视频会议中,摄像头需跟随移动的讲话者,甚至能在多声源环境中自动切换捕捉活动声源。多通道音频捕捉提供的空间线索在算法推导中起关键作用。
3.1 声源定位方法分类
声源定位技术可分为时域分析和频域分析,具体如下表所示:
|分析域|具体方法|
| ---- | ---- |
|时域分析|基于SRP或GCF、基于TDOA|
|频域分析|参数化波束形成、非参数化波束形成|
3.2 时域定位方法
- SRP和GCF方法 :转
超级会员免费看
订阅专栏 解锁全文
39

被折叠的 条评论
为什么被折叠?



