30、基于词典翻译的跨语言信息检索渐进算法

基于词典翻译的跨语言信息检索渐进算法

在跨语言信息检索(CLIR)领域,克服语言障碍是关键问题。常见的方法是翻译查询或文档,但文档翻译成本高,查询翻译成为主流。然而,查询翻译存在翻译歧义问题,需要有效的消歧方法。

1. 引言

跨语言信息检索中,克服语言障碍的常见方式是翻译查询或文档。由于文档翻译成本高,查询翻译成为主流,尽管文档翻译能得到更好的结果。查询翻译的关键问题是如何克服翻译歧义,目前有多种消歧方法,根据使用的语料库语言可分为两类:使用平行双语语料库和使用单语语料库。

使用平行双语语料库的方法,如统计翻译模型和相关语言模型,非常耗时,且难以获取大量平行双语语料库,尤其是小语种的。而单语语料库容易获取,基于单语语料库的方法通常使用术语(或单词)共现统计来解决翻译歧义,应用更为广泛。

查询翻译通常涉及术语和语法两个方面。由于查询通常较短且语法不规则,有时甚至没有句子结构,因此术语的正确翻译更为重要,语法可以在一定程度上忽略。这种情况下,只需要词典,我们称之为词典翻译。但这增加了翻译的难度,因为每个术语在词典中可能有多个条目,翻译候选组合数量巨大。从大量候选组合中选择正确的翻译组合是一项艰巨的任务,如果只返回最佳翻译组合,很可能出错。因此,计算每个术语翻译的概率分布比简单地在翻译中做出二元决策更被接受。

本文提出了一种计算翻译概率的渐进算法,其原始形式来自我们提出的另一个不太令人满意的渐进算法——最大和模型。通过分析该模型的缺点,我们用更合理的策略取代了其翻译概率重新分配策略。更有趣的是,新的渐进算法可以通过求解方程组更直接地计算。我们在搜狗T2.0上测试了该算法的性能,实验表明它优于其他四种方法。

2. 最大和模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值