自然语言形式化:上下文无关与上下文敏感语法解析
1. 上下文无关语法
1.1 递归形式
在自然语言形式化中,上下文无关语法有着多种递归形式。例如,对于像 “The pen” “The pen in the box” “The pen in the box inside the drawer” 这样的表述,可以构造与之等价的有限状态图。
- 左递归 :可以自动去除上下文无关语法中的左递归。
- 中间递归 :存在一种更复杂的递归形式,既不在语法的左侧也不在右侧。如 “The cat sleeps” “The cat that Joe got sleeps” 等句子,由包含自我引用但不在左右侧的语法生成。不过,使用中间递归产生的嵌入式句子往往不自然,超过两三次嵌入后生成的句子通常不可接受,并且无法构建与包含中间递归的上下文无关语法等价的正则表达式。
1.2 解析树
一般来说,将语法应用于文本会产生二元结果:文本序列要么属于语法描述的语言,要么不属于。但这种二元信息往往不足。例如,对于结构上有歧义的句子,句法语法会以多种方式识别它,此时解析树就很有用。
1.2.1 歧义语法示例
考虑这样一个语法:
- 句子由主语、动词和直接宾语组成(主规则第一项),或者由主语、动词、直接宾语、介词和间接宾语组成(主规则第二项)。
- 名词短语(规则 NP)由限定词后跟名词组成,或者由名词短语后跟介词,再跟另一个名词短语(名词补语)组成。
当将此语法应用于 “This man sees a chair
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



