自然语言处理中的句法、语义、语篇表示及语言模型
1. 句法表示
在自然语言里,语法是单词和短语组合的结构规则集合。英语的每个句子都遵循特定模式,这些模式体现了中心词与其依赖词之间的关系。了解语法规则有助于消除句子中的上下文歧义。
1.1 依存句法分析
解析是识别句子中单词句法关系的自然语言处理任务,有两种常见描述句子结构的方式:
- 成分语法解析 :将句子按其组成短语递归分解至单个单词级别,映射为成分解析树。
- 依存语法解析 :基于单词间的依存关系将它们连接起来,映射为依存解析树。依存关系是一对一的,依存解析树中每个单词对应一个节点,且链接有方向,从中心词指向依赖词。成分解析树和依存解析树可能是等价的,依存树的优势在于其链接与语义关系相近。
解析算法试图根据语法规则找到句子最可能的推导。若句子存在结构歧义,可能有多种推导。解析器分为两种方法:
- 自顶向下解析器 :使用递归算法和回溯机制,从根节点向下推导到句子中的所有单词。生成的树语法上一致,但可能无法涵盖句子中的所有单词。
- 自底向上解析器 :从单词开始,基于移位/归约或其他算法构建解析树。能涵盖所有单词,但生成的树可能不符合语法。
1.2 上下文无关文法
上下文无关文法(CFG)可用于表示语言的语法规则,通常采用巴科斯 - 诺尔范式表示,能捕捉句子中单词的成分和顺序。然而,由于语言的固有歧义性,CFG 可能为给定句子生成多个可能的解析推导。概率上下文无关文法(PCF
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



