56、无监督音频视频说话人建模与说话人分割技术

sprite

于 2025-08-14 10:11:59 发布

阅读量55

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：无监督学习音频说话人分割视频说话人分割

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005235

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

无监督音频视频说话人建模与说话人分割技术

1 引言

随着多媒体数据量的不断增加，开发能够检测人员存在并识别其身份的技术变得十分必要。这些信息可用于索引和搜索、增强自动语音识别系统、构建音频或视频识别系统，以及创建音频或视频语料库。本文的主要目标是在无监督的情况下，在音频领域创建说话人模型，在视频领域创建人脸模型，以便后续用于音频 - 视频人员识别。

2 音频说话人分割

音频说话人分割采用基于高斯混合模型（GMMs）的方法，与其他系统存在一些差异。该系统在所有音频文件处理完成后，会进行额外的离线聚类，以识别和合并对应同一说话人的说话人模型候选。同时，使用基于能量的语音活动检测，而非基于模型的检测。
- 系统模块 ：
1. 特征提取和语音活动检测 ：使用LFCC进行特征提取，基于25ms FFT窗口和10ms偏移，在50Hz至8kHz范围内使用25个滤波器，计算20个倒谱系数（不包括能量系数），不进行倒谱归一化。同时进行基于能量的语音活动检测（VAD），根据阈值将每一帧标记为语音或静音。
2. 语音分割 ：利用VAD信息以及最小和最大段长度、段内最大停顿长度等参数，将语音分割成短段。仅使用标记为语音的帧进行新颖性检测和GMM学习。
3. 说话人识别和新颖性检测 ：对于每个语音段，使用最大似然分类确定说话人的性别和最可能的身份。然后使用似然比测试来决定该段是属于已知说话人还是新说话人。似然比公式为：
[L(X) = \frac{P_{sp}}{P_{gen}}]
其中，(X

会员秒杀 ¥9.9 重磅福利

超级会员免费看