翻译规则获取与从句识别:技术探索与实践
在自然语言处理领域,翻译规则的获取和从句识别是两个重要的研究方向。翻译规则的准确获取能够提升机器翻译的质量,而从句识别则是双语对齐等任务的基础。下面将详细探讨这两个方面的相关技术和方法。
翻译规则的获取
1. 翻译规则获取步骤
在积累了结构匹配的翻译示例后,翻译规则的获取按以下步骤进行:
1. 收集匹配图 :假设关注源语言图中作为匹配图子图出现的特定单词或短语,将该子图记为 (t),收集所有包含与 (t) 相同子图的匹配图。
2. 提取相关部分 :提取图 (t) 及其子元素,同时提取目标语言树的相应部分。在此过程中应用一些启发式方法,例如删除对应的代词对,并恢复日语句子中的零人称代词。
3. 泛化子元素 :使用词库中的类别对孩子元素进行泛化,这被确定为规则适用性的条件。
系统获取两种类型的翻译规则,即单词级和短语级翻译规则。当顶部子图由单个实义词组成时,对应的子图给出一个单词选择规则;当顶部子图由多个实义词组成时,将其视为短语表达,称为翻译模板。
2. 实验资源与数据
在翻译规则获取的实验中,使用了《Torihiki Jouken Hyougenhou Jiten》(包含 9,804 个商业合同日语 - 英语表达的句子)、EDICT 1994、《Kodanska 日英词典》(93,106 个单词)作为基础资源。还使用了日语电子词库(Bunrui - Goi - Hyo, BGH)和《Roget’s Thesaurus》来指定语义类别
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



