英语到泰卢固语音译及混合人工蜂群算法研究
英语到泰卢固语音译
在英语到泰卢固语的音译研究中,采用了多种方法来提高音译的准确性。
首先是最佳音译提取方法。通过结合SegM1、SegM2和SegM3三种分割方法得到的前三个音译结果,为每个音译结果打分。例如,对于单词“A”,其音译“X”在三种分割方法的前三个音译组合列表中出现三次,一次排第二(如与SegM1),两次排第三(如与SegM2和SegM3),其最终得分是4(2(SegM1排第二) + 1(SegM2排第三) + 1(SegM3排第三))。提取得分最高的音译作为最佳音译,如果两个输出音译得分相同,则提取Moses生成得分最高的音译作为最佳音译。最后对提取的最佳音译执行特定步骤,将单词首字母的修饰符转换为等效元音。
为了检查音译的准确性,采用了基于修改编辑距离的评估方法。在泰卢固语中,有些字母发音略有不同但语音上相似,如果通过替换这些字母能生成正确的音译,那么替换它们的成本应低于替换语音差异很大的字母。由于训练数据使用OALD创建,测试数据使用“to phonetics”网站创建,两个数据集存在差距,这也是单词级准确性较低的原因之一。例如,“beautiful”一词,OALD的国际音标转录是“bjuːtɪfl”,“to phonetics”网站是“bjuːtəfəl”。在修改编辑距离的评估方法中,插入、删除和替换的成本根据删除、插入和替换的字母及其在单词中的位置设置为0.25到2.5。修改编辑距离值小于或等于1的单词被视为语音上良好的音译。
对训练后的音译系统在9994个单词的测试集上检查了单词级精确匹配的准确性和平均F分数。以下是不同分割方法和实验设置下的结果:
| 分割方法 | 实验设置1单词级
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



