利用特定方言语言模型改进自动语音识别
自动语音识别(ASR)系统在处理具有多种方言的语言时面临着挑战。不同方言在语音、语法和词汇等方面存在显著差异,这会影响 ASR 系统的准确性。本文将探讨如何利用特定方言语言模型来提高 ASR 系统在印度博杰普尔语和孟加拉语上的性能。
不同语音识别模型的特点
在语音识别领域,不同的模型具有各自独特的特点。以 Whisper 模型和 NTR 声学模型为例:
- Whisper 模型 :通常生成更“易读”的文本,类似书面语言,在大多数实际应用中(如发布录音采访)所需的手动校正较少。然而,转录文本可能包含单词重复、循环短语和句子等干扰,并且使用时需考虑大语言模型在文本生成过程中出现退化的可能性,即某个单词一旦出现,模型再次生成它的概率会增加。
- NTR 声学模型 :生成的转录文本对于有一定教育背景的读者来说可能不太熟悉,但能更准确地反映单词和短语的发音特点。通过该模型获得的单词频率列表及其正字法表示,可作为构建简化形式词典的宝贵材料,展示自然语音中的单词变形,为口语语音的语音研究和日常对话的 ASR 模型训练提供重要素材。
方言对 ASR 系统的挑战
大多数 ASR 系统是基于特定语言的转录语音和文本资源构建的,但很多语言存在多种方言,这些方言因地理、社会文化等因素而产生差异。以往的研究主要通过特定方言的声学建模来提高 ASR 系统在面对多种方言时的鲁棒性,即分别在每种方言的转录语音上训练声学模型(AM),然后与已知或自动标注的方言语音一起使用。然而,方言不仅会导致口音和单词发音的变化,还可能在语法和词汇上存在显著差异。
超级会员免费看
订阅专栏 解锁全文
1175

被折叠的 条评论
为什么被折叠?



