无监督音频视频说话人建模与说话人分割技术
1 引言
随着多媒体数据量的不断增加,开发能够检测人员存在并识别其身份的技术变得十分必要。这些信息可用于索引和搜索、增强自动语音识别系统、构建音频或视频识别系统,以及创建音频或视频语料库。本文的主要目标是在无监督的情况下,在音频领域创建说话人模型,在视频领域创建人脸模型,以便后续用于音频 - 视频人员识别。
2 音频说话人分割
音频说话人分割采用基于高斯混合模型(GMMs)的方法,与其他系统存在一些差异。该系统在所有音频文件处理完成后,会进行额外的离线聚类,以识别和合并对应同一说话人的说话人模型候选。同时,使用基于能量的语音活动检测,而非基于模型的检测。
- 系统模块 :
1. 特征提取和语音活动检测 :使用LFCC进行特征提取,基于25ms FFT窗口和10ms偏移,在50Hz至8kHz范围内使用25个滤波器,计算20个倒谱系数(不包括能量系数),不进行倒谱归一化。同时进行基于能量的语音活动检测(VAD),根据阈值将每一帧标记为语音或静音。
2. 语音分割 :利用VAD信息以及最小和最大段长度、段内最大停顿长度等参数,将语音分割成短段。仅使用标记为语音的帧进行新颖性检测和GMM学习。
3. 说话人识别和新颖性检测 :对于每个语音段,使用最大似然分类确定说话人的性别和最可能的身份。然后使用似然比测试来决定该段是属于已知说话人还是新说话人。似然比公式为:
[L(X) = \frac{P_{sp}}{P_{gen}}]
其中,(X
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



