从属类聚类与同声传译看机器翻译新路径
在自然语言处理(NLP)领域,构建语义层次结构以及提升机器翻译(MT)质量一直是重要的研究方向。我们先从基于属类的聚类(GBC)在构建语义层次结构中的应用讲起,再探讨同声传译(SI)对机器翻译可能带来的启示。
基于属类的聚类(GBC)在语义层次构建中的应用
在处理词典条目的翻译和定义时,基于属类的聚类(GBC)是一种有效的方法。通过对词条和翻译进行聚类,可以发现一些潜在的规律和类别。
例如,在为《朗文当代英语词典》(LDOCE)的英汉条目构建GBC时,会出现不同类型的聚类结果。基于词条 - 属类关系的聚类可能会产生过多的可能性,而基于MSG(可能是某种特定的语义关系)的聚类则更加聚焦,能降低翻译对齐(TTA)的复杂性。
下面是一些GBC的聚类结果示例:
| GBC | 源词成员 | 按频率降序排列的翻译成员 |
| — | — | — |
| PERSON | novice, prophet, rival, … | 家, 者, 師, 工, 手, 子, 人, 主, 民, 客, … |
| SCHOLAR | historian, folklorist, … | 學, 家, … |
| WORKER | packer, cutter, … | 工, … |
从这个表格可以看出,不同的聚类具有不同的源词成员和翻译成员。像“PERSON”聚类的翻译成员较为多样化,而“SCHOLAR”聚类的翻译成员相对更受限。这表明发现像“SCHOLAR”这样的隐性类别,并将其与更受限的翻译聚类关联起来,有助于实现高精度的TTA。
然而,在实际操作中,仍有许多
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



