56、无监督音频视频说话人建模与说话人分割技术

无监督音频视频说话人建模与说话人分割技术

1 引言

随着多媒体数据量的不断增加,开发能够检测人员存在并识别其身份的技术变得十分必要。这些信息可用于索引和搜索、增强自动语音识别系统、构建音频或视频识别系统,以及创建音频或视频语料库。本文的主要目标是在无监督的情况下,在音频领域创建说话人模型,在视频领域创建人脸模型,以便后续用于音频 - 视频人员识别。

2 音频说话人分割

音频说话人分割采用基于高斯混合模型(GMMs)的方法,与其他系统存在一些差异。该系统在所有音频文件处理完成后,会进行额外的离线聚类,以识别和合并对应同一说话人的说话人模型候选。同时,使用基于能量的语音活动检测,而非基于模型的检测。
- 系统模块
1. 特征提取和语音活动检测 :使用LFCC进行特征提取,基于25ms FFT窗口和10ms偏移,在50Hz至8kHz范围内使用25个滤波器,计算20个倒谱系数(不包括能量系数),不进行倒谱归一化。同时进行基于能量的语音活动检测(VAD),根据阈值将每一帧标记为语音或静音。
2. 语音分割 :利用VAD信息以及最小和最大段长度、段内最大停顿长度等参数,将语音分割成短段。仅使用标记为语音的帧进行新颖性检测和GMM学习。
3. 说话人识别和新颖性检测 :对于每个语音段,使用最大似然分类确定说话人的性别和最可能的身份。然后使用似然比测试来决定该段是属于已知说话人还是新说话人。似然比公式为:
[L(X) = \frac{P_{sp}}{P_{gen}}]
其中,(X

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值