基于语音模仿的声音类别自动识别
1. 引言
在语音识别领域,语音使用“音素”作为基本词汇。同样,语音模仿也有其基本词汇,即“语音基元”(Vocal Primitives,VPs)。我们希望开发一个系统,通过分析给定的音频记录数据集,自动推导出这些基元,将其称为“音频基元”(Audio Primitives,APs)。这些APs应代表在时间和频率上出现的重要声学线索,可在时间和/或频率上叠加,还能在时间和/或频率上移动。我们使用的自动推导APs的算法是平移不变概率潜在分量分析(Shift-Invariant Probabilistic Latent Component Analysis,SI - PLCA)。
2. 使用SI - PLCA寻找音频基元
2.1 PLCA和SI - PLCA
- PLCA(Probabilistic Latent Component Analysis) :可以看作是著名的非负矩阵分解(Non - negative Matrix Factorization,NMF)的概率形式。PLCA属于潜在类别模型,这类模型不直接应用于实验数据x,而是应用于其分布P(x),旨在通过潜在类别z来解释分布。PLCA将P(x)解释为潜在分布P(x|z)及其混合权重P(z)的混合:
[P(x) = \sum_{z = 1}^{K} P_Z(z)P(x|z)]
其中,P(x)是随机变量x的N维分布。该模型可进一步展开为:
[P(x) = \sum_{z = 1}^{K} \left[P_Z(z) \prod_{j = 1}^{N} P(x_j|z)\right]]