从语义角度看自然语言处理:机器翻译的现状与挑战
1. 自然语言处理概述
自然语言处理涉及计算机与人类自然语言交互的各个研究领域。通常,它与编程计算机处理和分析大量自然语言数据相关,其中自然语言生成可能与之分离或作为其附属部分,且复杂程度不一。从历史上看,自然语言处理始于机器翻译,这必然需要自然语言生成。从自然语言理解的角度来看,自然语言处理尤其涉及将文本分析为某种中间表示,并从中(直接或间接)生成文本的一对过程,分析和生成所使用的语言可以相同也可以不同。例如,自动释义、单语言文本摘要以及日语中的假名/汉字转换属于前者;而机器翻译则是后者的典型例子,计算机不可避免地要进行跨语言操作。
2. 机器翻译的发展趋势
2.1 早期的规则式机器翻译
从20世纪50年代最早的机器翻译系统出现到80年代,跨语言操作有两种方法:中间语言法和基于转换的方法。
- 中间语言法 :将源语言翻译成某种中间语言,然后独立于源语言从中间语言生成目标语言。
- 基于转换的方法 :每对源语言和目标语言都需要一个称为转换组件的模块,用于交换它们相应的中间表示,例如特定语言的依赖结构作为语法描述。
这两种技术都属于基于规则的机器翻译,但基于转换的方法更为流行,因为从技术角度来看,除了在表达明确或受控制的有限任务领域外,开发一种中间语言非常困难。基于规则的机器翻译最严重的问题是需要包含形态、句法和语义信息的广泛词典,以及大量几乎都需要手工编写的规则。
2.2 统计自然语言处理的兴起
20世纪80年代后期,基于统计的自然语言处理成为另一
超级会员免费看
订阅专栏 解锁全文
911

被折叠的 条评论
为什么被折叠?



