语言资源开发与儿童语音识别特征研究
在语言处理和语音识别领域,有两项重要的研究工作值得关注。一项是关于低资源语言Lambani的语言资源开发,另一项是关于零样本儿童语音识别中特征拼接的研究。
低资源语言Lambani的语言资源开发
在低资源语言的研究中,Lambani语言的资源开发是一个重要的课题。研究人员采用了多种模型进行词性标注(POS tagging)实验,旨在为该语言创建词汇语料库、词性标注集、词性标注器、词典和形态分析器。
模型配置
- 基线模型 :采用了大小为5的束搜索(beam size),仅包含1个RNN层,嵌入维度为768。
- 基于BERT的模型 :编码器和解码器均包含6层,前馈神经网络使用1024个内部状态,编码器和解码器的每个注意力层块包含4个头,注意力丢弃率和前馈网络的丢弃率均保持在0.1,使用Adam优化器进行训练。
- DistilBERT和MicroBERT :除了直接的RNN和基于BERT的模型外,还使用了DistilBERT和MicroBERT进行实验。DistilBERT利用知识蒸馏的概念,通过将大型复杂模型(BERT)的知识转移到较小的模型来训练;MicroBERT则使用多任务学习来减小模型大小,仅包含129万个参数。
评估指标
为了确定自动词性标注器的性能,采用了准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1-score)作为评估指标,具体定义如下
超级会员免费看
订阅专栏 解锁全文
50

被折叠的 条评论
为什么被折叠?



