斯拉夫语语音处理挑战与情感识别方法探索
斯拉夫语语音技术向斯洛伐克语的迁移
在拥有适用于一种语言的程序、系统和模块时,自然会思考能否将相同方法应用于另一种语言。此前有过将语音控制软件移植到其他语言的成功经验,例如最初为捷克残疾用户开发的 MyVoice 程序,后来也针对斯洛伐克语和西班牙语进行了修改。下面介绍将语音技术从捷克语迁移到斯洛伐克语的最新经验,这两种语言属于较为相近的斯拉夫语系。
词汇表
捷克语和斯洛伐克语同属西斯拉夫语支。由于过去它们曾是同一国家(前捷克斯洛伐克)的官方语言,所以被认为非常相似且紧密相关。为了量化它们在词汇层面的相似性,分析了大量平行语料库,即欧盟以这两种语言发布的文件,发现约 25% 的词汇项在捷克语和斯洛伐克语中相同,其余词汇中还有很大一部分非常相似(仅相差 1 到 2 个字母)。
为创建具有代表性的当代斯洛伐克语词汇表并计算相应的语言模型,使用了 2005 - 2007 年期间的报纸文章和广播新闻转录语料库,大小为 1.9 GB。清理该语料库(包括检测和去除斯洛伐克媒体中频繁出现的捷克语文本)后,编制了斯洛伐克语词汇表的第一个版本,由 166,535 个最常用的单词和词形组成。为获取它们的发音,修改了字母 - 音素转换器,纳入了斯洛伐克语特定的语音规则。
由于可用的斯洛伐克语声学数据不足以训练独立的斯洛伐克语声学模型,因此必须利用(并随后调整)现有的捷克语声学模型。这就需要将斯洛伐克语的语音清单转换为捷克语的,通过将斯洛伐克语特定的音素和双元音映射到最接近的捷克语对应项(单个音素或音素串)来实现,映射规则如下表所示:
| SK letter(s) | SK phoneme | CZ phoneme(s) |
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



