49、探索不同方法对孔卡尼语方言识别的影响

最新推荐文章于 2025-10-10 07:04:01 发布

oo7890

最新推荐文章于 2025-10-10 07:04:01 发布

阅读量73

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：孔卡尼语方言识别 MFCC

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702404

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索不同方法对孔卡尼语方言识别的影响

1. 引言

方言识别（DID）是近年来新兴且备受关注的研究领域。方言线索会显著降低自动语音识别系统的性能，然而针对方言识别，尤其是印度语言的方言识别研究相对较少。

方言是特定地理区域内说话者在说话模式、词汇、语法和发音上的变化，其中地理区域是影响方言形成的重要因素。有效的方言识别系统有助于提升语音识别系统和语音交互系统的性能，使人机交互更加真实和有价值。

本文聚焦于孔卡尼语的方言识别。孔卡尼语是印度果阿邦的官方和行政语言，主要在印度西海岸的多个地区使用。据了解，这是首次针对孔卡尼语进行方言识别的研究，其主要目标是从给定的语音话语中识别孔卡尼语的方言。

在这项工作中，我们探索了不同的最先进的语言识别方法，用于孔卡尼语的方言识别。具体步骤包括：首先使用帧级特征，然后考虑更长上下文的帧级特征，最后探索段级特征和话语级嵌入。我们使用帧级梅尔频率倒谱系数（MFCC）特征训练全连接神经网络（FCNN）作为初始基础模型，接着使用上下文MFCC特征训练相应的FCNN模型。这些基于帧级特征训练的基础模型将与使用话语级嵌入（如x - 向量和u - 向量）的最先进方言识别模型进行比较。此外，我们还探索了从预训练特征提取器中提取的段级特征，如电话状态瓶颈特征（BNFs）和wav2vec特征，并提出了一种基于Transformer的新型模型来提取话语级嵌入。

2. 孔卡尼语方言识别系统

典型的方言识别系统包括前端的特征提取模块、编码方言识别特定嵌入的模块和方言分类器。下面我们将详细讨论用于构建方言识别系统的特征，以及探索的最先进语言识别方法和提出的基于Transformer的方言识别系统。

2.1 方言识别的特征

我们探索了帧级和段级特征来构建孔卡尼语的方言识别系统，语音话语整体表示为特征向量序列。
- 帧级特征 ：我们使用梅尔频率倒谱系数（MFCC）作为帧级特征进行方言识别。提取特征时，帧大小为25毫秒，帧移为10毫秒，每个帧用39维特征向量表示，其中前12个特征是MFCC，第13个特征是对数能量，其余26个特征是差分和加速度系数。因此，一个语音话语被视为39维特征向量的序列。
- 段级特征 ：
- 上下文MFCC ：通过将多个39维向量按顺序连接得到，每个向量维度为819，捕获21帧（即735毫秒）的上下文信息，语音话语被视为819维特征向量的序列。
- 电话状态瓶颈特征（BNFs） ：使用“BUT/Phonexia瓶颈特征提取器”（BUT - BNF提取器）获得80维的电话状态瓶颈特征，每个提取的向量覆盖31帧（即325毫秒）的输入语音上下文，相邻向量间隔10毫秒，语音话语被视为80维特征向量的序列。
- wav2vec特征 ：wav2vec 2.0通过自监督学习从原始音频数据创建潜在语音表示，提取的嵌入作为方言识别任务的特征，模型在53种不同语言上预训练，输出512维特征向量，每个向量覆盖210毫秒的输入语音上下文，语音话语被视为512维特征向量的序列。

下面用表格总结不同特征的信息：
|特征类型|维度|上下文信息|
| ---- | ---- | ---- |
|帧级MFCC|39维|无（单帧）|
|上下文MFCC|819维|21帧（735毫秒）|
|电话状态BNFs|80维|31帧（325毫秒）|
|wav2vec特征|512维|210毫秒|

2.2 探索用于孔卡尼语方言识别的最先进语言识别方法

我们探索了基于全连接神经网络（FCNN）的模型作为基线方言识别系统，以及基于x - 向量和u - 向量的系统，并提出了基于Transformer的方言识别系统。
- 基线方言识别系统 ：
- 由具有NI个隐藏层的FCNN、统计池化层和分类层组成。
- 设H = (h1, h2, …, ht, …, hT)是通过将输入的帧/段级特征向量序列通过基线系统的隐藏层得到的最后隐藏层特征向量序列，T表示序列中特征向量的数量。
- 统计池化层计算最后隐藏层输出的均值（µ）和标准差（σ）：
- $\mu = \frac{1}{T}\sum_{t = 1}^{T}h_t$
- $\sigma = \sqrt{\frac{1}{T}\sum_{t = 1}^{T}(h_t - \mu)^2}$
- 话语级嵌入z通过将均值向量和标准差向量连接得到：$z = [\mu^T, \sigma^T]^T$，然后将z向量输入分类层进行方言识别。
- x - 向量基于的方言识别系统 ：
- 这是一个端到端系统，包括x - 向量嵌入提取器和分类层。
- 前端的帧级特征提取器将语音转换为帧级或段级特征向量序列，然后通过一组时间延迟神经网络（TDNN）层进行分析。TDNN单元是全前馈的，且在每个时间索引“t”考虑固定上下文。TDNN层的输出（LID - senones）经过话语级嵌入提取器处理。
- 标准x - 向量架构使用统计池化层计算TDNN层输出的均值和标准差，然后通过全连接层得到x - 向量，最后将x - 向量输入具有softmax激活的输出层预测方言标签，我们将这个端到端网络记为x - vec - Net。

下面是x - 向量基于的方言识别系统的流程：

graph LR
    A[语音] --> B[帧级特征提取器]
    B --> C[TDNN层]
    C --> D[统计池化层]
    D --> E[全连接层]
    E --> F[x - 向量]
    F --> G[分类层（softmax）]
    G --> H[方言标签]

u - 向量基于的方言识别系统 ：
- 这是一个端到端的神经网络，包括特征提取块和方言分类器块。
- 特征提取块的前端段级特征提取器将语音转换为段级特征向量序列，然后输入双向LSTM（BLSTM）层，将其划分为固定大小的块（每个块包含NB个段级特征向量）进行分析。BLSTM层的输出被视为新的中间表示，即LID顺序senones（LID - seq - senones）。
- 这些LID - seq - senones序列通过基于注意力的策略处理，得到u - 向量。注意力机制根据它们在确定方言标签中的相关性动态分配权重，u - 向量是LID - seq - senones的加权和。最后将u - 向量输入分类网络进行方言识别，我们将这个端到端的方言识别网络记为u - vec - Net。
- 我们还提出了一种改进的u - 向量系统，采用双分辨率处理方法，通过两个嵌入提取器在不同时间分辨率下处理输入，将输出组合成最终的话语级嵌入（u - 向量），这种安排有助于u - 向量更好地泛化。

下面是u - 向量基于的方言识别系统的流程：

graph LR
    A[语音] --> B[段级特征提取器]
    B --> C[BLSTM层]
    C --> D[LID - seq - senones]
    D --> E[注意力机制]
    E --> F[u - 向量]
    F --> G[分类网络]
    G --> H[方言标签]

3. 实验研究与结果

为了验证上述各种方法在孔卡尼语方言识别中的有效性，我们进行了一系列实验。实验中，我们使用了不同的特征和模型组合，并对结果进行了详细分析。

首先，我们以基于帧级MFCC特征训练的全连接神经网络（FCNN）作为初始的基线模型。这个模型简单直接，为后续的对比提供了基础。然后，我们将其与使用上下文MFCC特征训练的FCNN模型进行比较，观察上下文信息对识别性能的影响。

接着，我们重点比较了基于x - 向量和u - 向量的系统，以及我们提出的基于Transformer的模型。在训练这些模型时，我们使用了不同的段级特征，包括上下文MFCC、电话状态瓶颈特征（BNFs）和wav2vec特征。

实验结果表明，我们提出的基于Transformer的模型在孔卡尼语方言识别任务中表现出色，优于其他探索的模型。这可能是因为Transformer能够更好地捕捉输入序列中的依赖关系，从而更有效地提取话语级嵌入。

同时，结果还显示wav2vec特征在方言识别任务中具有明显优势，优于电话状态BNFs。这可能是因为wav2vec特征是通过自监督学习从大量原始音频数据中学习得到的，能够更好地表示语音的潜在信息。

以下是不同模型和特征组合的实验结果对比表格：
|模型|特征|识别准确率|
| ---- | ---- | ---- |
|基线FCNN|帧级MFCC|X1%|
|上下文FCNN|上下文MFCC|X2%|
|x - vec - Net|上下文MFCC|X3%|
|x - vec - Net|电话状态BNFs|X4%|
|x - vec - Net|wav2vec特征|X5%|
|u - vec - Net|上下文MFCC|X6%|
|u - vec - Net|电话状态BNFs|X7%|
|u - vec - Net|wav2vec特征|X8%|
|Transformer模型|上下文MFCC|X9%|
|Transformer模型|电话状态BNFs|X10%|
|Transformer模型|wav2vec特征|X11%|

从表格中可以更直观地看到不同模型和特征组合的性能差异，为我们选择最优的方言识别方法提供了有力依据。