65、形式语言中的抽取、收缩与代词：从上下文无关文法到索引文法-优快云博客

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/153771093

形式语言中的抽取、收缩与代词：从上下文无关文法到索引文法

在形式语言的研究中，抽取 - 收缩操作是一种非常有用的工具。本文将围绕上下文无关文法（CFL）、线性索引文法（LIG）以及索引文法（IG）展开，探讨抽取、收缩和代词相关的概念，并介绍一种在线正则模式匹配算法。

上下文无关文法的抽取、收缩与代词收缩

上下文无关文法的“xuwvy 引理”是关于 CFL 模型的众多成果中最受欢迎的一个。该引理为展示 CFL 模型的局限性提供了有用的工具，表明它无法处理符号的交叉复制和三重计数问题，还可用于证明某些 CFL 的固有歧义性。

实际上，将 xuwvy 收缩为 xwy 在一些应用中就足够了，并且在语言学上更有意义。长而复杂的句子包含可以收缩的从句，从而揭示主句的骨架结构。在自然语言中，从句（如名词短语类别）不会收缩为空字符串，而是收缩为代词或简单名词。类似地，我们将推导树中的一种操作称为代词收缩，即把根节点标记为 A 的子树替换为根节点为 A 且生成终结符串的较小（或最小）树。

对于上下文无关文法，我们假设产生式采用二元范式：
- 非终结符产生式：$A → BC$
- 终结符产生式：$A → a$

抽取边界 pumpsh(G) 是指超过该长度的终结符串必然会出现抽取和收缩现象。对于具有 n 个非终结符的上下文无关文法 G，如果生成 z 的树的高度大于 n（即 G 中非终结符的数量），那么 z 就允许进行 CFL 类型的抽取 - 收缩，即 $z = xuwvy$，且 $z(k) = xu^kwv^ky ∈ L(G)$，其中 $k = 0$（收缩），$1, 2, …$。由于完全二叉树是可能的（但在实践中很少见），pumpsh(G)