自然语言处理与机器翻译:关键概念与技术解析
1. 基础概念
1.1 语言学基础
在自然语言处理领域,诸多基础概念是理解和应用相关技术的基石。例如,词素(morpheme)是形态学的基本构建块,可分为自由词素(free morpheme)和黏着词素(bound morpheme)。自由词素如“go”能单独成词,而黏着词素如“+ing”需与其他词素结合使用。音位(phoneme)是语言中能被感知到的不同语音,不同语言对音位的感知不同,如英语中的 /p/ 和 /b/ 是不同音位。音位变体(allophone)是音位在不同语音环境下的不同实现形式,像“type”中的送气 /t/ 和“butter”中的闪音 /t/。
语法方面,上下文无关语法(context - free grammar,CF grammar)和上下文相关语法(context - sensitive grammar,CS grammar)是重要的形式语法类型。上下文无关语法的每条产生式形如 A → w,而上下文相关语法的产生式为 u₁Au₂ → u₁wu₂。这些语法规则用于定义语言的句法结构。
1.2 数据与语料库
语料库(corpus)是自然语言处理研究和应用中不可或缺的数据来源。它是按照一定抽样方法收集的文本或其他语言数据集合。平衡且具有代表性的语料库(balanced and representative corpus)试图确保所选文本能按比例代表整个语言,但由于缺乏对文本类型的普遍定义,这一目标难以完全实现。可比语料库(comparable corpus)在翻译中很有用,它可以是单语或多语的非翻译文本集合,在交际功能、主题等方面具有相似特征。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



