形式语言中的抽取、收缩与代词:从上下文无关文法到索引文法
在形式语言的研究中,抽取 - 收缩操作是一种非常有用的工具。本文将围绕上下文无关文法(CFL)、线性索引文法(LIG)以及索引文法(IG)展开,探讨抽取、收缩和代词相关的概念,并介绍一种在线正则模式匹配算法。
上下文无关文法的抽取、收缩与代词收缩
上下文无关文法的“xuwvy 引理”是关于 CFL 模型的众多成果中最受欢迎的一个。该引理为展示 CFL 模型的局限性提供了有用的工具,表明它无法处理符号的交叉复制和三重计数问题,还可用于证明某些 CFL 的固有歧义性。
实际上,将 xuwvy 收缩为 xwy 在一些应用中就足够了,并且在语言学上更有意义。长而复杂的句子包含可以收缩的从句,从而揭示主句的骨架结构。在自然语言中,从句(如名词短语类别)不会收缩为空字符串,而是收缩为代词或简单名词。类似地,我们将推导树中的一种操作称为代词收缩,即把根节点标记为 A 的子树替换为根节点为 A 且生成终结符串的较小(或最小)树。
对于上下文无关文法,我们假设产生式采用二元范式:
- 非终结符产生式:$A → BC$
- 终结符产生式:$A → a$
抽取边界 pumpsh(G) 是指超过该长度的终结符串必然会出现抽取和收缩现象。对于具有 n 个非终结符的上下文无关文法 G,如果生成 z 的树的高度大于 n(即 G 中非终结符的数量),那么 z 就允许进行 CFL 类型的抽取 - 收缩,即 $z = xuwvy$,且 $z(k) = xu^kwv^ky ∈ L(G)$,其中 $k = 0$(收缩),$1, 2, …$。由于完全二叉树是可能的(但在实践中很少见),pumpsh(G)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



