2、基于语音模仿的声音类别自动识别

基于语音模仿的声音类别自动识别

1. 引言

在语音识别领域,语音使用“音素”作为基本词汇。同样,语音模仿也有其基本词汇,即“语音基元”(Vocal Primitives,VPs)。我们希望开发一个系统,通过分析给定的音频记录数据集,自动推导出这些基元,将其称为“音频基元”(Audio Primitives,APs)。这些APs应代表在时间和频率上出现的重要声学线索,可在时间和/或频率上叠加,还能在时间和/或频率上移动。我们使用的自动推导APs的算法是平移不变概率潜在分量分析(Shift-Invariant Probabilistic Latent Component Analysis,SI - PLCA)。

2. 使用SI - PLCA寻找音频基元
2.1 PLCA和SI - PLCA
  • PLCA(Probabilistic Latent Component Analysis) :可以看作是著名的非负矩阵分解(Non - negative Matrix Factorization,NMF)的概率形式。PLCA属于潜在类别模型,这类模型不直接应用于实验数据x,而是应用于其分布P(x),旨在通过潜在类别z来解释分布。PLCA将P(x)解释为潜在分布P(x|z)及其混合权重P(z)的混合:
    [P(x) = \sum_{z = 1}^{K} P_Z(z)P(x|z)]
    其中,P(x)是随机变量x的N维分布。该模型可进一步展开为:
    [P(x) = \sum_{z = 1}^{K} \left[P_Z(z) \prod_{j = 1}^{N} P(x_j|z)\right]]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值