语料库在机器翻译及其他语言学领域的应用
1. 语料库与机器翻译
语言语料库在机器翻译领域发挥着至关重要的作用。以基于语料库的机器翻译(CBMT)系统为例,它涉及到诸多方面的问题和技术。
1.1 CBMT系统的其他问题
在开发CBMT系统时,主要会遇到以下四类问题:
- 词汇问题 :包括形态分析、双语词典、翻译对等词、词汇不匹配、词汇歧义、词汇空缺、词汇搭配、单字词与多字词单元的映射以及命名实体映射等。
- 句法问题 :如词汇重新排序、结构歧义、指代歧义、句子拆分、句子合并、语法一致、句子对齐等。
- 语义问题 :对各种语言单位(如单词、习语、短语等)的意义进行语义分析,并处理其中涉及的歧义。
- 社会文化问题 :包含习语表达、谚语表达、行话、语篇知识、文化知识、符号信息、生态语言学因素以及超语言知识等。
1.2 模块化系统
分析双语平行语料库(BTC)有助于优化两种等效结构之间的映射,以获得更好的翻译效果。这个过程通常可以系统地分为三个部分:
1. 潜在语言单位的识别 :找出两个语料库中可能在语法上相关联的潜在语言单位。
2. 可关联单位结构的形式化 :通过使用形态句法和词汇语义标签集来对可关联单位的结构进行形式化。
3. 结构概率的确定 :将提出的结构与从人工翻译文本中收集的有效数据库进行比较,确定其
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



