孟加拉语端到端关键词检测系统研究
在语音识别领域,关键词检测系统(KWS)对于识别特定关键词至关重要。本文聚焦于孟加拉语的KWS系统研究,在有限数据条件下,探讨不同技术的有效性,并研究语音活动检测(VAD)对系统性能的影响。
1. 关键词示例
首先,我们来看一些孟加拉语商品名称的关键词示例,如下表所示:
| 商品名称(ITRANS) | 等效IPA | 对应英文 |
| — | — | — |
| aalu | /a l u/ | Potato |
| aam | /a m/ | Mango |
| bit’a | /b i ú/ | Beetroot |
| caal | /tS a l/ | Rice |
| bhind’i | /bè i n ã i/ | Lady’s finger |
2. 研究贡献
本次研究有多个方面的贡献:
- 研究了多种传统的KWS技术,如ViT、Dense Net、前馈神经网络、Conv2D、Conv2D + 注意力机制和Conv2D + 多头注意力机制,用于孟加拉语有限数据场景。
- 展示了语音活动检测(VAD)对KWS的影响,VAD可去除语音信号中的低能量、无用短停顿或无信息部分。
- 采用跨语言迁移学习,将预训练的Hubert模型从英语调整到孟加拉语作为下游任务。
3. KWS技术方法
以下是几种不同的KWS技术:
- KWS - Conv1D with Raw Speech
这是一个基于1D CNN的端到端KWS系统
超级会员免费看
订阅专栏 解锁全文
883

被折叠的 条评论
为什么被折叠?



