27、从属类聚类与同声传译看机器翻译新路径

从属类聚类与同声传译看机器翻译新路径

在自然语言处理(NLP)领域,构建语义层次结构以及提升机器翻译(MT)质量一直是重要的研究方向。我们先从基于属类的聚类(GBC)在构建语义层次结构中的应用讲起,再探讨同声传译(SI)对机器翻译可能带来的启示。

基于属类的聚类(GBC)在语义层次构建中的应用

在处理词典条目的翻译和定义时,基于属类的聚类(GBC)是一种有效的方法。通过对词条和翻译进行聚类,可以发现一些潜在的规律和类别。

例如,在为《朗文当代英语词典》(LDOCE)的英汉条目构建GBC时,会出现不同类型的聚类结果。基于词条 - 属类关系的聚类可能会产生过多的可能性,而基于MSG(可能是某种特定的语义关系)的聚类则更加聚焦,能降低翻译对齐(TTA)的复杂性。

下面是一些GBC的聚类结果示例:
| GBC | 源词成员 | 按频率降序排列的翻译成员 |
| — | — | — |
| PERSON | novice, prophet, rival, … | 家, 者, 師, 工, 手, 子, 人, 主, 民, 客, … |
| SCHOLAR | historian, folklorist, … | 學, 家, … |
| WORKER | packer, cutter, … | 工, … |

从这个表格可以看出,不同的聚类具有不同的源词成员和翻译成员。像“PERSON”聚类的翻译成员较为多样化,而“SCHOLAR”聚类的翻译成员相对更受限。这表明发现像“SCHOLAR”这样的隐性类别,并将其与更受限的翻译聚类关联起来,有助于实现高精度的TTA。

然而,在实际操作中,仍有许多

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值