利用ViT从二语英语语音中识别母语及奥语方言识别研究
在当今科技驱动的环境下,语音技术的应用愈发广泛,其中母语识别(L1 Identification)和方言识别(Dialect Identification,DID)是语音研究领域的重要方向。它们对于提升人机交互的精准度以及自动语音识别系统的性能有着至关重要的作用。下面将详细介绍相关的研究内容。
母语识别研究
研究背景与意义
在人机交互中,一个人的母语(L1)会在其二语(L2)语音中引入特定的语音特征,这些特征在L2母语者的语音中是不存在的。这些差异会对基于语音的人机交互界面的性能产生负面影响。因此,准确识别一个人的母语对于开发更精确的基于音频的人机界面具有重要意义。
相关模型发展历程
多年来,为了解决母语识别的挑战,人们采用了各种模型来推断个人的母语。早期的模型包括高斯混合模型(Gaussian Mixture Models,GMMs)、隐马尔可夫模型(Hidden Markov Models,HMMs)和基于i - vector的模型。随后,卷积网络(Convolutional Networks,CNNs)和循环神经网络(Recurrent Neural Networks,RNNs)相继出现,这些模型在准确预测个人母语方面表现出了令人满意的性能。
近年来,母语识别的发展紧密跟随计算机视觉领域中目标分类模型的趋势。特别是,视觉变换器(Vision Transformers)最近在各种计算机视觉任务中取得了最先进的性能。受这些进展的启发,音频频谱图变换器(Audio Spectrogram Transformer,AST)被提出,它以频谱图作为输入,并采用预训练的视觉变换器(ViT)模型。其他基于变换器的模型也在各种语音处理任务中得到了更广泛的应用,并取得了有希望的结果。
相关工作回顾
- 提取MFCC特征结合分类器 :有研究提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征,并使用GMM、GMM - UBM和i - vector分类器对数据进行处理。在一个包含三种南印度语言(卡纳达语、泰米尔语、泰卢固语)的自定义数据集上进行测试时,该方法能够达到93.3%的整体准确率。
- 修改的LeNet模型 :一种修改的LeNet模型(一种卷积神经网络)被用于直接从L2录音中使用频谱图识别L1。使用剑桥英语语料库作为数据集进行实验,当仅使用原始音频文件时,结果显示整体准确率为88.1%。
- 混合模型 :结合深度神经网络(Deep Neural Networks,DNN)和循环神经网络的混合模型也被用于此任务。一个这样的模型在ComParE挑战的母语子挑战数据集上进行训练,该模型首先从音频剪辑中提取短期和长期特征,DNN部分关注长期特征,而RNN处理短期特征,能够达到52.48%的整体准确率。
- 其他模型 :还有使用MFCC和卷积受限玻尔兹曼机(Convolutional Restricted Boltzmann Machine,ConvRBM)进行L1预测的模型,在相关数据集上达到了40.2%的准确率;以及将MFCC与长期和短期CNN相结合进行预测的模型,在NISP数据集上实现了79%的整体准确率。基于注意力的模型也越来越多地被使用,一个受Listen, Attend and Spell(LAS)模型启发的模型,以对数梅尔滤波器组特征作为输入,为L1识别提供概率,通过组合多个模型,达到了83.32%的整体准确率。
提出的端到端模型
本文提出了一种修改的ViT架构,用于从L2语音中识别一个人的L1。该模型以384×384像素的梅尔频谱图作为输入,将该图像分割成多个32×32像素的子图像/补丁,然后将这些补丁展平为一维向量表示,并通过变换器模块进行处理,处理过程类似于标准变换器。最后使用多层感知器(Multi - layer Perceptron,MLP)头来生成每种语言的概率。为了简化模型,没有将补丁的相对位置信息传递给模型,因为空间结构对母语识别结果的影响相对较小,模型主要关注能够明显表征母语的独特特征。
为了记录基线性能,选择了一个4层的CNN模型和一个预训练的ResNet - 18(一个18层的CNN)作为对比模型。
实验设置
- 数据集 :本研究使用的是NISP数据集,该数据集由NITK和IISc合作准备,包含来自345名说话者的大约4 - 5分钟的英语和他们各自母语的音频记录。数据集中有五种母语:印地语、泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语。为了本次实验的目的,大部分元数据和说话者母语的音频记录被忽略,重点是利用说话者的英语记录和他们母语的信息。
-
实验流程
:
- 采样 :为确保数据集中的多样性,采用随机选择过程,为数据集中的每种语言采样1500个音频剪辑。然后将所选的音频记录划分为三个不同的集合:训练集、验证集和测试集。训练数据集包含6000个剪辑,验证集和测试集各包含750个剪辑。为了利用GPU的并行计算能力,每个集合进一步划分为多个批次,每个批次包含64个样本。
- 预处理 :每个音频剪辑进行填充或截断,以达到6秒的统一长度。此外,应用随机时间移位来增加剪辑的可变性。最后,使用1024毫秒的窗口长度和512毫秒的跳长将剪辑转换为梅尔频谱图。为了便于模型兼容性,使用标签编码器将语言名称转换为整数。
- 模型创建 :在本次实验中,使用预训练的ViT模型进行L1识别,同时使用一个基线4层CNN模型。具体选择了在ImageNet - 21k数据集上训练并在ImageNet数据集上进行微调的“vit - patch32 - 384”变体。由于模型期望输入大小为384×384的图像,因此生成的频谱图需要相应地调整大小以确保兼容性。为了使模型适应L1识别任务,将输出类别从原来的10000个修改为5个。
- 训练 :使用Adam优化器对模型进行70个周期的训练,并在训练期间应用调度学习率(One Cycle LR)。在每个周期记录模型在训练集和验证集上的性能,以便绘制性能图,直观展示模型的训练历史。
- 评估 :在测试数据集上评估模型的准确率,然后创建混淆矩阵以更详细地评估模型的性能。
实验结果
| 模型 | 数据集 | 准确率 |
|---|---|---|
| 基线 | NISP | 89.6% |
| GMM | 自定义 | 93.3% |
| LeNet | 剑桥英语语料库 | 88.1% |
| CNN带注意力池化 | ComParE挑战 | 86.05% |
| DNN + RNN | ComParE挑战 | 52.48% |
| MFCC与ConvRBM | ComParE挑战 | 40.2% |
| 修改的LAS | ComParE挑战 | 79% |
| 提出的模型 | NISP | 97.87% |
一个简单的CNN模型作为基线模型,在训练集、验证集和测试集上分别显示出88.3%、88.36%和89.6%的准确率。预训练的ResNet - 18模型在训练集、验证集和测试集上的准确率分别为99.8%、96.7%和96.8%。ViT模型在训练集上的整体准确率为99.8%,在验证集上为98.9%,在测试数据集上进行基准测试时,其准确率为97.87%。基于ViT的模型相比基线CNN模型有显著改进,就所选数据集而言,这是目前记录到的最佳性能。此外,从混淆矩阵可以看出,ViT模型没有显示出任何重大偏差,只有印地语被误分类为泰米尔语6次和卡纳达语被误分类为印地语4次这两个值得注意的情况。
奥语方言识别研究
研究背景与意义
在语音研究领域,方言识别也是一个重要的研究方向。奥语(Ao)是一种低资源的藏缅语系声调语言,主要在印度东北部的那加兰邦使用。方言识别任务对于自动语音识别任务具有重要意义,其主要目标是识别同一语系中不同方言之间的差异。奥语有三种不同的方言,分别是Chungli、Mongsen和Changki,它们在韵律和音位属性方面存在差异。由于奥语是一种声调语言,且文本资源稀缺,因此对奥语方言进行自动分类是一项具有挑战性的任务。
相关工作回顾
在世界主要语言的方言识别系统构建方面,有许多相关研究。一些研究使用手工制作的特征,如MFCC、Shifted Delta Cepstral(SDC)、滤波器组、色度频谱形状、共振峰(F1 - F3)以及韵律特征(如基频F0、能量、强度和持续时间),结合不同的机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL)模型。这些研究主要在非声调语言(如阿拉伯语、英语、西班牙语、印地语、卡纳达语和北萨米语)中进行。同时,也有在声调语言(如汉语、越南语、旁遮普语等)中进行方言分类的尝试。
研究方法
本研究采用基于调制的方法进行奥语方言的自动识别。考虑到奥语是一种声调语言,为了捕捉调制频谱图的时间信息,实验针对3秒的片段持续时间进行评估。同时,使用对数梅尔频谱图作为基线方言识别系统的特征。
实验结果
提出的调制频谱图在准确率上比基线奥语方言识别系统有大约8%的显著提高,这表明基于调制的表示方法在自动识别奥语的三种方言方面是有效的。
综上所述,无论是母语识别还是奥语方言识别的研究,都为语音技术的发展提供了有价值的参考。基于ViT的母语识别模型和基于调制表示的奥语方言识别方法都取得了较好的效果,未来可以进一步探索其他基于变换器的模型在这些任务中的应用,以及如何更好地利用语音特征来提高识别的准确率。
利用ViT从二语英语语音中识别母语及奥语方言识别研究
技术分析与展望
母语识别技术分析
- ViT模型优势 :在母语识别中,提出的修改ViT架构展现出显著优势。ViT基于注意力机制,无需卷积操作,能在图像分类任务中取得优异成绩,迁移到母语识别领域同样表现出色。其将梅尔频谱图分割成小补丁处理的方式,能有效捕捉语音中的特征信息。而且,不考虑补丁相对位置信息,简化了模型,同时表明在母语识别中,微特征起到关键作用,模型更关注能表征母语的独特特征,而非特征的顺序。
- 与其他模型对比 :从实验结果来看,ViT模型相比其他传统模型有明显的性能提升。例如,与基线CNN模型相比,在测试集上准确率从89.6%提升到97.87%。这说明纯注意力机制的模型在母语识别任务中具有很大的潜力,未来可以考虑将更多基于注意力机制的模型应用到该领域。
奥语方言识别技术分析
- 调制表示的有效性 :在奥语方言识别中,基于调制的方法展现出良好的效果。奥语作为声调语言,调制频谱图能够捕捉到语音中的时间信息,从而更好地区分不同方言。相比基线系统使用的对数梅尔频谱图,调制频谱图在准确率上有大约8%的提升,这充分证明了该方法在处理低资源、声调语言方言识别问题上的有效性。
- 面临的挑战 :奥语方言识别面临着文本资源稀缺的挑战,这使得基于文本的分析和建模工作变得困难。同时,奥语方言的声调变化不具有系统性,增加了识别的难度。未来需要探索如何在有限的资源下,进一步提高识别的准确率。
未来研究方向
母语识别
- 探索更多变换器模型 :可以尝试使用其他现有的图像变换器模型(如beit)或未来可能出现的基于变换器的模型,进一步提升母语识别的性能。
- 结合更多特征 :除了梅尔频谱图,还可以考虑结合其他语音特征,如韵律特征、音素特征等,以提高模型对母语特征的捕捉能力。
- 跨语言应用 :将该模型应用到更多语言对的母语识别中,验证其在不同语言环境下的通用性。
奥语方言识别
- 数据增强 :由于奥语是低资源语言,可以通过数据增强的方法,如合成语音、添加噪声等,扩充数据集,提高模型的泛化能力。
- 多模态融合 :结合语音的视觉信息(如唇形、面部表情等)和文本信息,构建多模态的方言识别系统,以提高识别的准确率。
- 与自动语音识别系统结合 :将奥语方言识别系统与自动语音识别系统相结合,提高在不同奥语方言环境下的语音识别性能。
总结
本文围绕母语识别和奥语方言识别展开了研究。在母语识别方面,提出的修改ViT架构在NISP数据集上取得了97.87%的准确率,相比传统模型有显著提升,证明了纯注意力机制模型在该领域的可行性和有效性。在奥语方言识别方面,基于调制的方法在准确率上比基线系统提高了约8%,显示出在处理低资源、声调语言方言识别问题上的优势。未来,我们可以进一步探索更多的模型和方法,结合更多的特征和模态,以提高语音识别的性能,为语音技术的发展做出更大的贡献。
以下是实验流程的mermaid流程图:
graph LR
A[采样] --> B[预处理]
B --> C[模型创建]
C --> D[训练]
D --> E[评估]
通过以上研究和分析,我们可以看到语音识别技术在不同领域都有着广阔的应用前景和发展空间。无论是母语识别还是方言识别,都需要不断地探索和创新,以满足日益增长的语音技术需求。
超级会员免费看
505

被折叠的 条评论
为什么被折叠?



