利用Wav2Vec2.0增强印度语境下的语言识别能力
1. 引言
语言识别(LID)系统的目标是根据语音信号对口语进行分类。自动语音识别是众多语音相关应用的初步步骤,如多语言自动语音识别、语音到语音翻译、呼叫中心的客户路由等。在代码切换的情况下,LID是任何基于语音的应用系统的基本组成部分。
语言识别技术大致可分为显式和隐式两类。显式LID系统通常将语音转换为中间表示(如音素),然后从该表示中提取特征用于LID;而隐式方法则直接将语音输入模型来识别语言身份。本文聚焦于使用wav2vec2.0 - XLSR - 53的隐式LID系统,它能直接将原始语音编码为特征向量用于LID。
DNN、带注意力机制的DNN、i - vector、LSTM等模型在LID任务中取得了不错的效果,但这些模型训练需要大量的语言数据。在印度这样的低资源语言环境中,有22种官方语言、众多地区方言且可用语言数据有限,能学习跨语言信息的模型表现更佳。虽然多语言ASR的联合声学模型(JAM)提取的特征在LID任务中有显著提升,但构建ASR需要大量标注数据,获取标注数据是低资源语言面临的瓶颈。因此,自监督模型如wav2vec2.0被用于从无标注数据中学习跨语言信息,再用少量标注数据进行微调。
2. 相关工作
- 高斯混合模型(GMM)、GMM - 通用背景模型(UBM)和i - vector模型是开发LID系统常用的建模技术。
- 深度神经网络也用于LID系统,能有效捕捉时间信息,但在低资源印度语言环境中,数据和说话人数量不足。
- 早期工作使用MFCC特征,后来有使用自动联想神经网络(AANN)、希尔伯特包络和LP残差的相位信息等进行LID任务。
- 各种深度神经网络如深度卷积递归神经网络、Resnets等也被用于LID任务,近期还评估了使用XLS - R - 300M wav2vec2.0、Resnet和ConvNet等模型对带口音语音进行LID任务。
3. 数据库
采用IIITH - ILSC数据库进行模型评估,该数据库包含来自1150位说话者的103.5小时语音数据,涵盖23种语言(22种印度官方语言和印度英语),每种语言有4.5小时数据。语料来自Prasar Bharati档案、全印度广播电台、TED演讲、广播对话语音以及多所高校学生的录音。数据库中每种语言包含50位说话者(25男25女)的语音,每位说话者的语音时长为5 - 10分钟,包含干净和嘈杂环境的语音样本,所有语音文件为.wav格式,采样率为16000样本/秒。
4. 方法
4.1 Wav2Vec2.0
wav2vec2.0 - XLSR - 53是在53000小时无标注语音和53种不同语言上预训练的模型。它以原始语音波形为输入,将其分割成帧,每帧通过多个堆叠的CNN层,得到潜在表示z1....zt ,每个zi向量代表语音信号一个时间帧的向量。这些表示被掩码后传递到上下文网络得到表示C = [c1....ct] ,上下文网络是一个变压器编码器,使用分组卷积层学习相对位置。掩码后的z1....zt还通过量化块得到q1....qt向量,量化块将输入映射到不同的语音单元。模型使用对比学习进行训练,对于每个掩码位置t,模型尝试从包含qt和K个干扰项的集合Qt中识别ct的真实表示。对比损失计算如下:
[L_m = -\log\frac{\exp(\text{sim}(c_t, q_t)/\kappa)}{\sum_{\tilde{q}\sim Q_t}\exp(\text{sim}(c_t, \tilde{q})/\kappa)}]
其中sim是余弦相似度,κ是对比损失中的温度,Qt是包含qt和K个干扰项的集合。
在预训练模型上使用标注数据进行微调,通过最小化连接主义时间分类(CTC)损失进行优化。将预训练的wav2vec2.0 - XLSR - 53模型在IIITH - ILSC数据库上微调后用于LID任务。从XLSR - 53的第14层获得的上下文向量c1....ct被输入到注意力层,进行以下操作:
-
自注意力
:
- (a = \text{softmax}(w_2\text{GELU}(W_1c^T)) \in R^T)
- (o_1 = \sum_{t = 1}^{T} a_t c_t)
- (o_2 = \sqrt{\frac{\sum_{t = 1}^{T} a_t(c_t - \mu)^2}{T}})
其中(\mu=\frac{\sum_{t = 1}^{T} c_t}{t}),(W_1 \in R^U),(w_2 \in R^U),(o_1)是基于注意力向量a的上下文向量加权和,(o_2)是加权标准差。(o_1)和(o_2)连接后作为特征向量输入到线性层,输出通过softmax归一化,输出Y是概率向量,每个(Y_i)表示输入语音属于第i种语言的概率。
5. 实验设置
5.1 模型
- Resnet :残差网络是一种前馈架构,每层除了有来自前一层的前向路径,还有来自前一层的残差连接,将前向和残差连接的表示相加。使用堆叠移位三角倒谱(SDC)特征,通过将7维MFCC特征与49维SDC特征拼接得到56维SDC向量。使用2 - 1 - 2的时间上下文进行堆叠。Resnet使用4个块,DenseResnet使用7个密集块,所有块的丢弃因子为0.1。
- 联合声学模型(JAM) :多语言ASR的JAM使用LSTM - CTC框架训练,基于6种印度语言构建。泰卢固语、泰米尔语和古吉拉特语的数据来自微软,印地语、马拉地语和奥里亚语的数据来自当地说话者的朗读任务。模型在IIITH - ILSC数据库上微调后进行测试。将组合数据转换为IT3格式,为每个语音提取的声学向量计算后验音素概率,转换为缩放似然得到CTC特征,维度为75。这些CTC特征经过注意力层、线性层和softmax预测语言身份。
- Wav2Vec2.0 :wav2vec2.0 - XLSR - 53预训练模型的第一个块是特征编码器,输入320维表示20ms音频样本的向量,经过标准化、7个卷积块(包含1D卷积层、归一化层和GELU激活函数)得到512维向量,输入到变压器块。变压器块有24个编码器块,模型维度1024,内部维度4096,16个注意力头。在变压器块上方添加投影层将1024维输出映射到768维向量。在将特征编码器输出输入到上下文网络之前,对潜在语音表示Z进行掩码。量化块将512维输入向量量化为768维输出向量,模型共有3亿个参数,使用Adam优化器,学习率为0.003。
5.2 标注数据微调
为了微调,考虑使用80维对数梅尔频谱图,窗口大小30ms,重叠15ms,展平为1D向量输入到wav2vec2.0模型。将IIITH - ILSC数据库分为20分钟、2.5小时和12小时三个部分,每种语言的标注数据大致相等,训练和测试分割比例为80:20。将音频样本切成6秒,分类器输入6秒语音得到23维向量,概率最高的语言为最终预测结果。不同数据集大小下模型的EER如下表所示:
| 持续时间 | 20分钟 | 2.5小时 | 12小时 |
| ---- | ---- | ---- | ---- |
| 准确率(%) | 82.10 | 86.27 | 88.13 |
| EER | 13.18 | 11.56 | 10.14 |
以下是wav2vec2.0模型的处理流程mermaid图:
graph TD;
A[原始语音] --> B[特征编码器];
B --> C[卷积块];
C --> D[变压器块];
D --> E[投影层];
E --> F[上下文网络];
B --> G[量化块];
F --> H[注意力层];
H --> I[线性层];
I --> J[softmax];
J --> K[语言预测];
6. 实验结果
使用等错误率(EER)比较提出的LID系统与最先进的LID系统在IIITH - ILSC数据库上的性能。EER是接收器操作特性(ROC)曲线中误接受率和误拒绝率相同的点,EER越低,准确率越高。以下是各种LID系统的结果:
| 研究 | 系统 | EER |
| ---- | ---- | ---- |
| Ravi等 | i - vector | 17.77 |
| | DNN | 17.99 |
| | DNN - A | 15.18 |
| | 顺序模型(LSTM) | 12.82 |
| | MHA(ResNets) | 12.34 |
| | MHA(DenseResNets) | 12.06 |
| | XLSR - 53预训练(第14层) | 15.56 |
| | Wav2vec2.0 - XLSR - 53微调模型 | 10.14 |
联合声学模型(JAM)在多语言训练时平均EER为10.39,但需要大量标注数据。Resnet和Dense Resnet使用SDC特征和Adam优化器进行探索,分别找到了最佳的块数和特征组合。预训练的Wav2vec2.0 - XLSR - 53模型在未微调时,等错误率在第11层编码器之前下降,第11 - 18层基本不变,之后急剧上升;微调后,第24层的特征表现最佳。使用仅12小时的总标注数据(每种语言约30分钟),微调后的wav2vec2.0 - XLSR - 53模型在语言识别性能上有显著提升。
7. 结论
本研究探索了wav2vec2.0 - XLSR - 53的特征用于LID任务。通过自监督方式在多种语言上进行预训练,显著改善了声学建模和跨语言信息学习,这对缺乏标注数据的低资源印度语言特别有帮助。对于像迈蒂利语、信德语这样的低资源语言,其他LID系统如DNN - A的EER约为28%,带MHA的Resnets的EER约为25%,而本研究提出的特征EER约为15%。
利用Wav2Vec2.0增强印度语境下的语言识别能力
8. 不同模型在低资源语言识别中的表现分析
在低资源语言环境下,各模型的表现差异明显。以下通过表格对比不同模型在部分低资源印度语言上的EER:
| 语言 | DNN - A EER | 带MHA的Resnets EER | 本研究提出特征EER |
| ---- | ---- | ---- | ---- |
| 迈蒂利语 | 约28% | 约25% | 约15% |
| 信德语 | 约28% | 约25% | 约15% |
从表格中可以看出,本研究提出的基于wav2vec2.0 - XLSR - 53的特征在低资源语言识别上具有显著优势。这主要得益于wav2vec2.0能够从无标注数据中学习跨语言信息,然后用少量标注数据进行微调,有效解决了低资源语言标注数据不足的问题。
9. 模型参数与性能的关系
模型的参数设置对其性能有着重要影响。以下分别分析不同模型的关键参数及其对性能的影响:
-
Resnet和Dense Resnet
:
-
块数
:Resnet测试了4和9个块,Dense Resnet测试了7和9个块,最终发现Resnet使用4个块、Dense Resnet使用7个块时性能最佳。
-
SDC特征堆叠方式
:测试了0 - 1 - 0、1 - 1 - 1、2 - 1 - 2和3 - 1 - 3等不同的堆叠方式,结果表明2 - 1 - 2的堆叠方式效果最好。
-
学习率
:对于Resnet,Adam优化器学习率为0.001时效果最佳;对于Dense Resnet,学习率为0.0001时表现更好。
-
Wav2Vec2.0
:
-
模型结构
:包含24个编码器块,模型维度1024,内部维度4096,16个注意力头,这些结构设计有助于模型学习语音的复杂特征。
-
掩码操作
:对潜在语音表示Z进行掩码,取p = 0.065随机样本作为起始索引,掩码接下来的M = 5帧,这种掩码策略有助于模型学习更鲁棒的特征。
-
优化器和学习率
:使用Adam优化器,学习率为0.003,合适的优化器和学习率保证了模型的收敛速度和性能。
10. 多语言训练的优势与挑战
多语言训练在语言识别任务中具有明显优势,但也面临一些挑战。
-
优势
:
-
跨语言信息学习
:如联合声学模型(JAM)在多语言训练时,能够学习到不同语言之间的共享语音信息,提高语言识别的准确性。本研究中的wav2vec2.0 - XLSR - 53通过自监督预训练在多种语言上学习,同样可以捕捉到跨语言的共性特征。
-
提升低资源语言性能
:对于低资源语言,多语言训练可以利用其他语言的信息来辅助学习,从而提升低资源语言的识别性能。
-
挑战
:
-
标注数据需求大
:像JAM需要在大量标注数据上进行训练,而低资源语言往往难以获取足够的标注数据,这限制了多语言训练模型在低资源语言环境下的应用。
-
模型复杂度
:多语言训练的模型通常结构复杂,参数众多,训练和计算成本较高。
以下是多语言训练的优势与挑战的mermaid流程图:
graph LR;
A[多语言训练] --> B[优势];
A --> C[挑战];
B --> B1[跨语言信息学习];
B --> B2[提升低资源语言性能];
C --> C1[标注数据需求大];
C --> C2[模型复杂度高];
11. 未来展望
基于本次研究,未来在语言识别领域可以从以下几个方面进行深入探索:
-
数据增强技术
:针对低资源语言标注数据不足的问题,研究更有效的数据增强技术,如合成语音数据、语音变换等,以扩充训练数据,提高模型性能。
-
模型轻量化
:在保证模型性能的前提下,探索如何对复杂的模型进行轻量化处理,降低计算成本和存储需求,使其更易于部署在资源受限的设备上。
-
融合多模态信息
:除了语音信息,尝试融合文本、图像等多模态信息,进一步提升语言识别的准确性和鲁棒性。
通过不断的研究和创新,有望进一步提升语言识别技术在各种语言环境下的性能,为语音相关应用提供更强大的支持。
超级会员免费看
1058

被折叠的 条评论
为什么被折叠?



