机器翻译重要过程(1)---数据预处理

最新推荐文章于 2024-04-14 00:28:53 发布

最新推荐文章于 2024-04-14 00:28:53 发布 · 772 阅读

·

0

·

文章标签：

本文详细介绍构建中英统计翻译系统时的双语数据预处理步骤，包括中文分词及英文分词的具体处理方法，旨在解决数据稀疏问题并提高翻译质量。

目前有如之前基于统计的开源翻译系统介绍中提到的许多开源统计翻译系统，在由原始平行语料到形成最后的翻译系统的整个过程中，它们有一些相同的处理步骤，从这次的文章开始，陆续介绍几个最重要的过程做法及其意义。

一般在我们得到双语平行语料之后，在构建双语统计翻译系统之前，都会有一个双语数据预处理的过程，为后续例如词对齐处理提供分好词且格式恰当的双语数据。这里以汉英双语数据举例。

在中英翻译系统构建过程中，对于中文和英文的数据预处理，方式是不一样的。

1）中文分词处理

之前提到了，这一步可以使用中科院分词系统ICTCLAS完成，如果不使用这些附加工具的话，例如NiuTrans翻译系统，其预处理的分词系统采用的就是传统基于词典的正向最大匹配法来完成的。基本流程图如下所示：

由于数字、日期、时间、网址等不可枚举，无法通过词典简单查找来分词。
可以采用正则表达式或者自动机进行自动识别，并给予特殊名字进行泛化。例如：
数字类型 $number 如：123
日期类型 $date 如：2013年8月24日
时间类型 $time 如：19:30
网址等类型 $literal 如：http://www.youkuaiyun.com
实际上大家可以总结更多类型，并自行定义泛化名字进行替换原文。泛化的目的是为了有效解决数据稀疏问题。
需要注意一点的是，在做这一步的时候建议不要对组织机构名进行捆绑为一个词汇。例如将“北京邮电大学信通院”最好分成两个词“北京邮电大学”“信通院”。这样做的好处是为了有助于后面规则抽取模块抽取出更多翻译规则。

另外，在预处理时，中文的全角字符可以考虑改写为半角字符来处理；

2）英文分词处理

英文这种阿拉伯语系的语言处理起来相对中文要简单一些，总的来说主要是处理以下3个问题：

1. 将所有大写字母改为小写字母；
2. 将英文句尾结束符与句尾最后一个单词用空格分开；
3. 同样将数字、日期、时间、网址等不可枚举的类型进行识别，然后分别采用特殊名字进行泛化处理。

例如双语句对：
中文：8月24日我买了2台电脑。
英文：I bought 2 computers on August 24.

预处理结果：
中文：$date 我买了 $number 台电脑。
英文：i bought $number computers on $date .

这里又要提醒几点：同一类型的泛化名字在中英文中最好一样，如中文/英文数字=>$number；注意区分英文的句尾符号“.”和“Mr. Smith”的“.”；

在泛化之后，注意检查一下双语句对的泛化结果一致性，例如中文句子中包含$date，正常情况下，英文句子中也应该包含$date等。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。