58、语音方言与说话人验证技术研究

语音方言与说话人验证技术研究

1. 引言

在语音处理领域,方言识别(DID)和说话人验证(SV)是两个重要的研究方向。方言识别旨在确定语音所属的方言种类,而说话人验证则是确认说话人的身份。本文将介绍一种基于调制表示的Ao语方言识别方法,以及一种用于自监督说话人验证的聚类算法CAMSAT。

2. Ao语方言识别

2.1 研究背景与动机

以往在方言识别任务中,对于非声调语言和声调语言都有大量使用手工特征的研究,也有一些使用时频表示的工作,不过大多集中在Ao语上。然而,频频表示在方言识别任务中尚未被探索。因此,本文提出在方言识别中使用基于调制的表示。Ao语是一种声调语言,不同方言在声调分配上存在差异,特别是在较长的语音时长中。调制频谱图能够捕捉语音信号的长期时间特征,不同Ao语方言的调制频谱图在高频区域呈现出不同的模式,这促使我们探索其在Ao语方言分类中的应用。

2.2 贡献

  • 尝试在资源匮乏的印度那加兰邦使用的Ao语中进行方言识别任务。
  • 使用频频表示的调制频谱图对三种Ao语方言进行分类。

2.3 语音语料库

本研究使用了Changki Mongsen Chungli - Ao(CMC - Ao)语料库。该语料库包含96篇朗读文章,约6小时的三种Ao语方言录音。24名母语为Ao语的说话人参与录制,每种方言有4名男性和4名女性。说话人被要求朗读《圣经》中“浪子回头的比喻”段落,由于《圣经》只有标准方言版本,因此为Changki和Mongsen方言的说话人进行了翻译。语音使用TASCAM 2通道数字录音机和Shure头戴式麦克风在真实环境中录制,为增加会话变异性,说话人需在四个会话中朗读相同段落。

2.4 提出的Ao语方言识别系统

2.4.1 调制频谱图

调制频谱图是语音信号在常规频率(f)和调制频率(fmod)方面的二维表示。对于Ao语方言识别系统,调制频谱图捕获的长期时间信息被认为在区分三种方言方面具有独特特征。其生成过程包括对语音信号s(t)进行频率变换得到时频表示S(t, f),然后通过傅里叶变换(FT)将时频表示S(t, f)转换为频频表示S(f, fmod),公式为:
[S(f, fmod) = FT|S(t, f)|]
调制频谱图后续用Smds表示。

2.4.2 基于注意力的CNN - BiGRU分类器

该分类器架构在之前的研究中经过超参数调整,结合了空间和时间信息,并通过频率注意力机制进行分类任务。卷积层用于学习调制频谱图的空间信息,Bi - GRU层捕获方言间的时间上下文,同时通过注意力机制为具有更多区分信息的频率箱分配更高权重。架构包含三个2D卷积层,分别有32、64和128个内核,步长为(2, 1),内核大小为(3, 3)。每个卷积层的输出进行批量归一化后通过最大池化层,最后卷积层的输出传递到128个单元的Bi - GRU层。输入的调制频谱图同时输入到注意力机制,其输出与Bi - GRU层的输出拼接,然后输入到32个节点的密集层,最后通过输出层(大小为3)进行类别预测,输出层使用Softmax激活函数,密集层使用ReLU激活函数。模型训练使用33的小批量大小,训练50个周期,在密集层后应用0.4的Dropout,使用分类交叉熵损失进行训练,优化器的初始学习率设置为0.0001。

2.5 实验与结果

2.5.1 基线方法

使用对数梅尔频谱图(LMS)作为基线特征。梅尔频谱图通过包含40个重叠三角滤波器的梅尔滤波器组生成,对其进行自然对数运算后得到对数梅尔频谱图(Slms)。

2.5.2 语音数据增强

为避免分类过程过拟合并增加CMC - Ao语料库,采用了以下语音数据增强方法:
- 电话语音:使用国际电信联盟(ITU)网站上的免费软件G.191将原始语音转换为电话语音,参考ITU用户手册进行管道处理。
- 混响语音:使用公开可用的Roomsim工具箱将原始语音增强为两种类型的混响语音,生成的混响语音在配置设置上有所不同。

增强后,CMC - Ao语料库产生了约24小时的384篇文章,涵盖三种Ao语方言。

2.5.3 分类结果

训练使用原始和增强后的语音,测试使用原始语音数据。语音数据分为四个不重叠的折叠,每个折叠包含1名男性和1名女性说话人的语音数据。每次迭代中,使用三个折叠进行训练(包括增强数据),剩余一个折叠进行测试。训练集按70:30的比例划分为训练集和验证集。模型以3秒的片段持续时间(约298帧)作为分类决策单元进行训练。

Features Accuracy (μ ± σ) Changki (μ ± σ) Mongsen (μ ± σ) Chungli (μ ± σ) Average (μ ± σ)
Smds 62.80±9.79 71.06±7.64 57.71±16.87 54.63±10.77 61.13±10.52
Slms 55.27±3.19 44.80±18.37 54.23±7.60 62.51±5.05 53.84±4.02
Smds+Slms 62.98±10.19 71.08±8.22 56.23±20.34 55.12±10.56 60.81±11.54

从表中可以看出,提出的特征Smds在分类三种Ao语方言方面表现良好,其分类准确率明显高于基线特征Slms。为进一步探索特征组合的效果,将特征在分数级别进行融合,计算公式为:
[Scomb = αSf1 + (1 - α)Sf2]
其中,Sf1和Sf2分别是Smds和Slms的预测分数,α的取值范围为0 - 1。实验发现,当α = 0.9时,给予提出的特征Smds更高权重,可获得最佳准确率,这证实了基于调制的表示在捕获方言特定信息以分类三种Ao语方言方面的有效性。

2.6 系统框架流程图

graph LR
    A[输入语音信号] --> B[预处理(重采样、Z - score归一化)]
    B --> C[提取调制频谱图特征]
    C --> D[基于注意力的CNN - BiGRU分类器]
    D --> E[三种方言分类结果]

3. 自监督说话人验证

3.1 研究背景

在自监督说话人验证系统中,使用聚类算法通过伪标签优化说话人嵌入网络是一种常用的训练方法。然而,基于伪标签的自监督训练方案依赖于高质量的伪标签,标签噪声会显著影响下游性能。当前的聚类方法存在瓶颈,错误的伪标签会导致信息迭代传播,降低最终性能,同时深度过参数化网络容易过拟合训练伪标签中的噪声,导致性能下降和泛化能力变差。因此,需要更好的聚类算法来生成噪声更少、更准确的伪标签。

3.2 CAMSAT聚类算法

3.2.1 原理

CAMSAT基于两个原则:
- 增强混合(AM):通过混合增强样本的预测结果,为聚类提供互补的监督信号,增强增强之间的对称性。
- 自增强训练(SAT):强制表示不变性,最大化样本与其预测伪标签之间的信息理论依赖。

3.2.2 优势
  • 高度可扩展,在在线聚类过程中对数据的损坏和偏移更具鲁棒性。
  • 通过Jensen - Shannon散度(JSD)一致性损失在不同扰动下强制一致的嵌入。
  • 易于实现,对IMSAT增加的计算开销有限。
  • 能够在说话人聚类中超越所有其他聚类算法,在说话人验证性能上优于所有其他SOTA SV基线。

3.3 贡献

  • 提出一种新的通用聚类算法CAMSAT,结合了IMSAT聚类框架的互信息(MI)最大化和AUGMIX在预测级别混合增强的正则化优势,提高了大规模数据集或高数量聚类下聚类的泛化性、鲁棒性和稳定性。
  • 通过聚类指标进行全面的比较分析,表明提出的聚类方法性能优异,超越了大量基线。使用生成的伪标签训练说话人验证系统,能够超越所有其他说话人验证基线。
  • 进行消融研究,分析了提出框架不同组件的贡献。

3.4 聚类算法对比表

聚类算法 可扩展性 对数据损坏和偏移的鲁棒性 实现复杂度 计算开销 说话人聚类性能 说话人验证性能
CAMSAT 简单 有限
其他基线算法 复杂

3.5 聚类流程示意图

graph LR
    A[输入说话人嵌入] --> B[增强混合(AM)]
    B --> C[自增强训练(SAT)]
    C --> D[聚类分配]
    D --> E[生成伪标签]
    E --> F[训练说话人嵌入系统]
    F --> G[说话人验证]

综上所述,本文提出的基于调制表示的Ao语方言识别方法和CAMSAT聚类算法在方言识别和说话人验证任务中都展现出了良好的性能,为语音处理领域的相关研究提供了新的思路和方法。未来可以进一步探索特征组合的优化以及在更多语音任务中的应用。

语音方言与说话人验证技术研究

4. 技术细节分析

4.1 Ao语方言识别技术细节

4.1.1 调制频谱图生成步骤

调制频谱图的生成是Ao语方言识别的关键步骤,其具体流程如下:
1. 频率变换 :对语音信号 ( s(t) ) 进行频率变换,得到时频表示 ( S(t, f) )。
2. 傅里叶变换 :将时频表示 ( S(t, f) ) 通过傅里叶变换(FT)转换为频频表示 ( S(f, f_{mod}) ),公式为 ( S(f, f_{mod}) = FT|S(t, f)| )。

4.1.2 基于注意力的CNN - BiGRU分类器训练步骤

基于注意力的CNN - BiGRU分类器的训练过程包含多个步骤:
1. 数据预处理 :对输入语音信号进行重采样和Z - score归一化处理。
2. 特征提取 :从预处理后的语音信号中提取调制频谱图特征。
3. 模型构建 :构建包含三个2D卷积层、Bi - GRU层、注意力机制、密集层和输出层的模型架构。
4. 模型训练 :使用33的小批量大小,训练50个周期,在密集层后应用0.4的Dropout,使用分类交叉熵损失进行训练,优化器的初始学习率设置为0.0001。

4.2 自监督说话人验证技术细节

4.2.1 CAMSAT聚类算法步骤

CAMSAT聚类算法的执行步骤如下:
1. 增强混合(AM) :混合增强样本的预测结果,为聚类提供互补的监督信号。
2. 自增强训练(SAT) :强制表示不变性,最大化样本与其预测伪标签之间的信息理论依赖。
3. 聚类分配 :根据上述步骤的结果进行聚类分配。
4. 生成伪标签 :基于聚类分配结果生成伪标签。
5. 训练说话人嵌入系统 :使用生成的伪标签训练说话人嵌入系统。
6. 说话人验证 :对训练好的系统进行说话人验证。

4.2.2 与其他聚类算法的对比

CAMSAT聚类算法与其他基线算法在多个方面存在差异,具体对比如下:
| 聚类算法 | 可扩展性 | 对数据损坏和偏移的鲁棒性 | 实现复杂度 | 计算开销 | 说话人聚类性能 | 说话人验证性能 |
| — | — | — | — | — | — | — |
| CAMSAT | 高 | 强 | 简单 | 有限 | 优 | 优 |
| 其他基线算法 | 低 | 弱 | 复杂 | 高 | 差 | 差 |

5. 性能评估与结果分析

5.1 Ao语方言识别性能评估

5.1.1 分类结果分析

从分类结果来看,提出的特征 ( S_{mds} ) 在分类三种Ao语方言方面表现良好,其分类准确率明显高于基线特征 ( S_{lms} )。具体数据如下表所示:
| Features | Accuracy (μ ± σ) | Changki (μ ± σ) | Mongsen (μ ± σ) | Chungli (μ ± σ) | Average (μ ± σ) |
| — | — | — | — | — | — |
| ( S_{mds} ) | 62.80±9.79 | 71.06±7.64 | 57.71±16.87 | 54.63±10.77 | 61.13±10.52 |
| ( S_{lms} ) | 55.27±3.19 | 44.80±18.37 | 54.23±7.60 | 62.51±5.05 | 53.84±4.02 |
| ( S_{mds}+S_{lms} ) | 62.98±10.19 | 71.08±8.22 | 56.23±20.34 | 55.12±10.56 | 60.81±11.54 |

5.1.2 特征组合效果分析

为进一步探索特征组合的效果,将特征在分数级别进行融合,计算公式为 ( S_{comb} = αS_{f1} + (1 - α)S_{f2} ),其中 ( S_{f1} ) 和 ( S_{f2} ) 分别是 ( S_{mds} ) 和 ( S_{lms} ) 的预测分数,( α ) 的取值范围为0 - 1。实验发现,当 ( α = 0.9 ) 时,给予提出的特征 ( S_{mds} ) 更高权重,可获得最佳准确率,这证实了基于调制的表示在捕获方言特定信息以分类三种Ao语方言方面的有效性。

5.2 自监督说话人验证性能评估

5.2.1 聚类性能评估

通过聚类指标进行全面的比较分析,结果表明CAMSAT聚类算法在说话人聚类方面表现优异,超越了大量基线算法。

5.2.2 说话人验证性能评估

使用CAMSAT聚类算法生成的伪标签训练说话人验证系统,能够超越所有其他说话人验证基线,在说话人验证性能上表现出色。

6. 总结与展望

6.1 研究成果总结

本文主要取得了以下研究成果:
- 提出了基于调制表示的Ao语方言识别方法,使用调制频谱图特征和基于注意力的CNN - BiGRU分类器,在Ao语方言识别任务中取得了良好的性能。
- 提出了CAMSAT聚类算法,结合增强混合和自增强训练原则,在自监督说话人验证任务中表现优异,能够生成噪声更少、更准确的伪标签。

6.2 未来研究方向

未来可以从以下几个方面进行进一步的研究:
- 特征组合优化 :探索更多特征组合的可能性,进一步提高Ao语方言识别和说话人验证的性能。
- 更多语音任务应用 :将本文提出的方法应用到更多的语音任务中,如语音合成、语音识别等。
- 算法改进 :对CAMSAT聚类算法进行进一步的改进和优化,提高其在不同场景下的性能。

6.3 整体流程总结图

graph LR
    A[语音数据] --> B1[Ao语方言识别]
    A --> B2[自监督说话人验证]
    B1 --> C1[预处理]
    B1 --> C2[特征提取(调制频谱图)]
    B1 --> C3[分类器训练(CNN - BiGRU)]
    B1 --> C4[分类结果评估]
    B2 --> D1[说话人嵌入提取]
    B2 --> D2[CAMSAT聚类]
    B2 --> D3[伪标签生成]
    B2 --> D4[说话人嵌入系统训练]
    B2 --> D5[说话人验证评估]
    C4 --> E[总结与优化]
    D5 --> E

通过以上研究和分析,本文提出的方法为语音处理领域的方言识别和说话人验证任务提供了新的思路和方法,具有一定的理论和实践价值。未来的研究可以在此基础上进一步拓展和深化,推动语音处理技术的发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值