文法与语言-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42437114/article/details/108889773

本文介绍文法的概念，包括文法的定义、文法的类型、文法与语言的关系等内容。探讨了不同类型的文法（如0型、1型、2型、3型文法）及其在语言生成中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

重点掌握：
(1) 给定语言，构造文法
(2) 给定文法，写出语言 (可以用规范的数学描述方式，也可以用自然语言方式)

文法的引入

文法：语言的定义装置
自动机：语言的识别装置

例
下面用文法定义语言，即“由加号和减号分隔的数字序列” （递归定义）
$\begin{aligned}<list>&→<list>+<digit>|<list>-<digit>|<digit>\\ <digit>&→0| 1| 2| 3| 4| 5| 6| 7| 8| 9 \end{aligned}$

其中 $l i s t$ 代表的语法单位名是数字序列， $d i g i t$ 代表的语法单位名是数字。它们都是需要进一步定义的抽象的语法单位，称为非终极符。 $+$ 和 $-$ 运算符以及数字称为该文法的终极符
该文法定义的语言的一些合法的句子是：
$2 + 3 + 4 、 5 - 2 + 3 、 7 + 8$
利用文法进行推导并产生句子 $5 - 2 + 3$ 的过程：
$\begin{aligned}<list> &\Rightarrow<list>+<digit> \\& \Rightarrow<list>-<digit>+<digit> \\&\Rightarrow<digit>-<digit>+<digit>\\& \Rightarrow5 - <digit>+<digit> \\& \Rightarrow5 – 2 + <digit> \\& \Rightarrow5- 2 + 3\end{aligned}$

文法的 EBNF 表示

EBNF：扩展巴科斯范式

元语言：用来定义一种语言的语言（可描述文法规则）
(注意与源语言的区别)

下面是用来描述规则的元语言符号：

$\rightarrow\ /:=$ ：代表“定义为”
$∣$ ：代表“或者”
$< Z >$ ：代表 $Z$ 是需要进一步加以定义的抽象的语法单位名，即文法的非终结符号
${Z\}$ ：代表 $Z$ 出现 0 或任意次
$\{Z\}^m_n$ ：代表符号串 $Z$ 可重复连接 $n$ 到 $m$ 次 (很少使用)
$[Z]$ ：代表 $Z$ 最多出现一次
$(\ )$ ：表示括号内的成分优先。常用于在规则中提取公因子
- 例如： $U \to x y ∣ x w ∣ \dots \dots ∣ x z$ ；可写成： $U \to x （ y ∣ w ∣ \dots \dots ∣ z ）$

例
字母打头、后面可跟数字或字母的不超过8个字符的标识符文法：
$标识符>→<字母>\{<字母>|<数字>\}_0^7$

字母表和符号串

任何一种语言都是由该语言的基本符号所组成的符号串集合的子集
- 例如，C语言的基本符号有
  $i f, w h i l e, f o r, \dots, 字母、数字和 + 、 - 、（、）、 > =$ 等分界符

字母表

“字母表 $\sum$ ” 是元素的非空有穷集合。字母表中的每个元素称为“符号”
- 例如：集合 ${a，b，c，+，*\}$ 是一个含有5个符号的字母表

符号串

“符号串” 是由字母表上0个或多个符号所组成的任何有穷序列
“空串”：不包含任何符号的串，记为 $ε$
$\sum$ 上全部有穷长符号串的集合记作 $∑^*$

例
${a,b\}$ ，则 $ε, a, b, a a, b b, a b a$ 等都是 $\sum$ 上的符号串

符号串及其集合的运算

符号串的长度：记为 $∣ x ∣$
- 如 $∣ a b c ∣ = 3$
符号串的连接： $x y$ 表示将符号串 $y$ 连接在符号串 $x$ 的后面
- 注意：连接没有交换律，即 $x y \neq = y x$
- 对于空串 $ε$ ，有 $ε x = x ε = x$
集合的乘积运算：设 $U、V\subset ∑*$ ， $U$ 和 $V$ 的积（连接）定义为：
$U·V=UV=\{αβ|（α∈U）∧（β∈V）\}$
- 例如： $A=\{a，b\} ，B=\{c，d\}$ ，则 $AB=\{ac，ad，bc，bd\}$
- 对于空集合 ${ε\}$ 有： $U\{ε\}=\{ε\}U=U$
符号串的幂运算：若 $x$ 是符号串，则：
$x^0=ε, x^1=x , x^2=xx ,…，x^n=xx…x=xx^{ n-1}=x^ {n-1} x$ 其中 $n > 0$
集合的幂运算：设 $A$ 为符号串集合，则：
$A^0=\{ε\},A^1=A, A^2=AA……A^n=AA…A=AA^{n-1} =A^{n-1}A$ 其中 $n > 0$
集合的正闭包和集合的闭包：设 $A$ 为一个集合，则集合 $A$ 的正闭包用 $A^+$ 表示，定义为：
$A^+ =A^1 ∪A^2 ∪…. ∪A^n ∪…$ 集合 $A$ 的闭包用 $A^*$ 表示，定义为：
$A^* =A^0 ∪A^+$ 显然有 $A^+=AA^*=A^*A$
- 例如： $A = \{a，b\}$ ，则 $A^+ =\{a,b,aa,ab,ba,bb,aaa,aab,…\}$ ， $A^* =\{ε ,a,b,aa,ab,ba,bb,aaa,aab,…\}$
  一个集合的闭包比正闭包多个 $ε$

文法和语言的形式定义

文法 $G$ （grammar）为一个四元组
$G = (V_N，V_T，P，S )$

$V_T$ ：终结符集的非空有穷集 (Terminal)
$V_N$ ：非终结符集的非空有穷集
- $V = V^N ∪ V^T$ 是词汇表 / 字母表
  （ $V$ 中符号为文法符号， $V^N ∩V^T = φ$ ）
$P$ ：语法规则的非空有穷集 (Producer)，也称为 产生式
- 即 $\alpha\rightarrow\beta$ 的形式 ( $\alpha\in V^*V_NV^*,\beta\in V^*$ )
$S\in V_N$ ：文法的开始符号 (Start Symbol)

一般约定用小写字母表示终结符号；大写字母表示非终结符号

写文法时，可省略 $V_N$ 和 $V_T$ ，直接写出规则即可。但要注意要写出开始符号。例如： $G [S]$ 表示 $S$ 为开始符号

例
产生语言 {标识符} 的文法
解
$\begin{aligned} G[I]： I&→L | IL | ID\\ L&→a | b |… | z \\D&→0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9\end{aligned}$

( $I, L, D$ 分别表示标识符、字母、数字)

例
生成语言 $L=\{a^n b^m| n, m \geq1\}$ 的文法
解
$\begin{aligned} G[S]：S&→AB\\ A&→aA | a\\ B&→bB | b\end{aligned}$

例
给出语言 {无符号整数} 的文法
解
$\begin{aligned} <num>&→<num><digit> | <digit>\\ <digit>&→0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9\end{aligned}$ 分别用推导和语法树表示 $248$ 的生成过程：
$\begin{aligned} <num>&\Rightarrow<num><digit>\\&\Rightarrow<num><digit><digit>\\&\Rightarrow <digit><digit><digit>\\&\Rightarrow2 <digit><digit> \\&\Rightarrow24<digit> \\&\Rightarrow248\end{aligned}$

语法树 (以开始符号为根结点)：
在这里插入图片描述
例
函数调用中的参数列表对应的文法

例

分号的放置方式很微妙。它们出现在所有不以 $s t m t$ 结尾的产生式的末尾。这种方法可以避免在 $i f$ 或 $w h i l e$ 这样的语句后面出现多余的分号，因为 $i f$ 和 $w h i l e$ 语句的最后是一个嵌套的子语句。当嵌套子语句是一个赋值语句或 $d o$ - $w h i l e$ 语句时，分号将作为这个子语句的一部分被生成

例

证明：用下面文法生成的所有二进制串的值都能被3整除
该文法是否能够生成所有能被 3 整除的二进制串？
$\rightarrow 11 | 1001 | num\ 0 | num\ num$

解

显然该文法生成的所有二进制串都能被3整除
假设该文法能够生成所有能被 3 整除的二进制串，则可得到如下结果：
$\begin{aligned}3k = num &\rightarrow 11 | 1001 | num\ 0 | num\ num\\ k = num/3 &\rightarrow 01 | 0011 | k\ 0 | k\ k\\ k & \rightarrow 01 | 0011 | k\ 0 | k\ k\end{aligned}$ $k$ 只能含有不超过两个连续的1，因此类似 $k = 111$ ( $3 k = 21 = 10101$ ) 这种3的倍数就无法被生成

推导

直接推导 $\Rightarrow$
$α \to β$ 是文法 $G$ 的产生式，若有 $v, w$ 满足： $v = γ α δ, w = γ β δ$ , 其中 $γ \in V *, δ \in V *$ ，则称 $v$ 直接推导到 $w$ ,记作 $\Rightarrow w$
- 例： $G [S] ： S \to 0 S 1 ， S \to 01$
  $\Rightarrow0S1 \Rightarrow00S11$
推导 $\Rightarrow^*$ ( 0 次或任意多次复合 )
- 若存在 $α_0 \Rightarrow α_1\Rightarrow ...\Rightarrow α_n$ , $(n > 0)$ ，则记为 $α_0 \Rightarrow^+ α_n$ （正闭包），称作 $α_0$ 推导出 $α_n$ ，或 $α_n$ 归约到 $α_0$
- 若有 $α_0 \Rightarrow^+ α_n$ 或 $α_0 = α_n$ ，则记为 $α_0 \Rightarrow^* α_n$ （自反传递闭包）
- 若从 $α_0$ 出发，经过 $k$ 次推导，可推出 $α_n$ ，记为： $α_0 \Rightarrow^k α_n$ （ $k$ 次复合）

句型、句子的定义

句型

文法 $G=(V_N, V_T, P, S)$ ，若 $\Rightarrow^* x$ ，且 $x∈(V_N∪V_T)^*$ ，则称 $x$ 是文法 $G$ 的句型

句子

有文法 $G$ ，若 $\Rightarrow^* x$ ，且 $x∈V_T^*$ ，则称 $x$ 是文法 $G$ 的句子。即可由开始符号推出的，仅由终极符组成的句型

例
$S→01\\ S \Rightarrow0S1 \Rightarrow00S11 \Rightarrow000S111 \Rightarrow00001111$

$G$ 的句型： $S, 0 S 1, 00 S 11, 000 S 111, 00001111 \dots$
$G$ 的句子： $00001111, 01 \dots$

(文法生成的) 语言的定义

语言

由文法 $G$ 生成的语言记为 $L (G)$ ,它是文法 $G$ 的一切句子的集合:
$L(G)=\{x|S \Rightarrow^* x，其中S为文法的开始符号，且x ∈V_T^*\}$

等价文法

给定一个文法, 就能从结构上唯一的确定其语言
给定一种语言, 能确定其文法, 但不唯一
- 如果两个不同的文法可描述相同的语言,那么我们称这两个文法为等价文法 (若 $L（G_1）=L（G_2）$ ，则称文法 $G_1$ 和 $G_2$ 是等价的)

例
$G [Z] : Z \to a Z b ∣ a b$ 求该文法确定的语言
解
从识别符号开始推导，反复用规则1可得:
$\Rightarrow aZb \Rightarrow a^2Zb^2 \Rightarrow … \Rightarrow a^{n-1} Zb^{n-1}$ 最后用规则2可得:
$\Rightarrow aZb \Rightarrow a^2Zb^2 \Rightarrow … \Rightarrow a^{n-1} Zb^{n-1} \Rightarrow a^nb^n$ $\therefore L(G[Z])=\{a^nb^n|n≥1\}$

递归规则与递归文法

句子的个数是有穷还是无穷取决于文法是否是递归的。递归文法使我们能用有穷的文法刻画无穷的语言

递归规则：在规则的右部含有与规则左部相同符号
- 若文法中至少包含一条递归规则, 则称文法是直接递归的。有些文法，表面看上去没有递归规则，但经过几步推导，也能造成文法的递归性，则称为间接递归文法
  - 例如，有文法为: $U \to V x ， V \to U y ∣ v$ ，有推导过程 $U\Rightarrow Vx\Rightarrow Uyx$ ，所以该文法为间接递归文法
如果这个相同的符号出现在右部的最左端，则为左递归规则
如 $U : : = U y$
如果这个相同的符号出现在右部的最右端，则为右递归规则
如 $U : : = x U$

写文法一般采用“串联”和“并联”两种手段

“串联”：把一个句子结构分解为几个相连接的子结构 (如例1、例2)
“并联”：难以用统一形式表达的句子，可用几种不同方式表达出来，构成不相交的划分 (如例3中把正偶数分为一位正偶数和多位正偶数分别进行表示)

例1
已知语言 ${a^nb^na^mb^m | n, m≥0\}$ ，求文法
解
$S→AA\\ A→aAb |ε$

例2
已知语言 ${a^iba^j | i, j≥0\}$ ，求文法
解
$S→AbA\\ A→aA |ε$ 或者
$\\A→aA | ε$

例3
给出生成非零开头的正偶数集合的文法
解
$8\\ A→1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 \\B→AB| 0B |ε\\ C→0 | 2 | 4 | 6 | 8$

例
已知下列文法，求文法生成的语言是什么？
$S \to 0 S 0 ∣ 1 S 1 ∣ ε$

解
文法产生的句子形式为：00，11，0110，1001，…，其特点是镜像结构
$L（G）=\{XX^{-1} | X∈\{0, 1\}^*，X^{-1}为X的逆，没有中心元素的镜像结构语言\}$

例
已知下列文法，求文法生成的语言是什么？
$S \to S （ S ） S ∣ ε$

解

首先文法的终极符是 $($ 和 $)$ ，即句子只能是左、右圆括号组成。而 $S$ 的每一次非 $ε$ 推导，都会产生一对左右圆括号。并且在已产生的 $(\ )$ 的前面、后面和里面都可以产生圆括号对，且能递归分析下去。若使用 $S \to ε$ 产生式，将去掉句型中的某个 $S$ ，这就使得句子中左右圆括号的配对和嵌套具有随意性
$L（G）=\{α|α为空串或可任意嵌套的配对的左右圆括号序列 \}$

例题

一个文法 $G [S]$ 若存在推导序列 $S\Rightarrow^+…S…$ , 则称 $G [S]$ 是____文法，该文法产生的句子有____个
文法 $G$ 所描述的语言是____的集合
A.文法 $G$ 的词汇表 $V$ 中所有符号组成的符号串
B.文法 $G$ 的词汇表 $V$ 的闭包 $V^*$ 中的所有符号串
C.由文法的识别符号推出的所有符号串
D.由文法的识别符号推出的所有终结符号串
BNF是一种广泛采用的____的工具
A. 描述规则 B.描述语言
C.描述文法 D.描述句子

答案：

递归，无数
D
C

文法和语言分类

0型文法 (规则不受限制的文法)

若文法中有如下形式的规则：
$α→β ，其中α∈V^* V_N V^* ，β∈V^* ，V= V_N∪V_T$ 且对 $α ， β$ 不加任何其它的限制。则为0型文法

规则的右边不受限制，左边至少含有一个非终结符号

0型文法描述的语言为0型语言，用 $L_0$ 表示

**例
$\begin{aligned}G[S]： S&→ACaB，\\Ca&→aaC，\\CB&→DB，\\CB&→E，\\aD&→Da，\\AD&→AC， \\aE&→Ea，\\AE&→ε\end{aligned}$

$L[G]=\{a^i | i 为2的正整次方\},即L=\{aa, aaaa, aaaaaaaa, …\}$

1型文法 (上下文有关文法, CSG)

Context-Sensitive-Grammar

若一个0型文法 $G$ 中有如下形式的规则：
$αUβ→αuβ，其中 U∈V_N，α、β∈V^*， u ∈V^+ ，V= V_N∪V_T$ 则为1型文法
- 当把规则应用到推导中，只有在上下文 $α$ 和 $β$ 中，才能把 $U$ 重写为 $u$

$u ∈V^+$ 表示 $u$ 非空

1型文法描述的语言为1型语言，用 $L_1$ 表示
1型文法的另一等价定义：
若一个0型文法 $G$ 中所有产生式 $α \to β$ 都满足如下的条件：
$α|≤|β|（α，β∈V^+）$ ，则称 $G$ 为1型文法

**例
已知语言 ${a^nb^nc^n | n≥1\}$ ，求文法
解
仿照 ${a^nb^n | n≥1\}$ 的产生式，则 ${a^nb^nc^n | n≥1\}$ 的文法可能是 $S \to a S b c ∣ a b c$ 。然而，这个文法生成的一个句子是 $a a a b c b c b c$ ，而原题中语言的一个合法句子是 $a a a b b b c c c$ 。显然必须实现 $c$ 与 $b$ 的换位，但由于无法通过终极符换位，所以考虑用非终极符 $B$ 和 $C$ 标记 $b$ 和 $c$ ，修改文法：
$aSBC\\ CB→BC$ 新添加的一条文法使得 $B$ 不断前移， $C$ 不断后移。此时产生的一个句子是： $a a a B B B C C C$
由于只有 $B$ 的前面是 $a$ 或 $b$ ，才能将 $B$ 重写为 $b$ ，即 $a B \to a b, b B \to b b$ 。同理，只有 $C$ 的前面是 $b$ 或 $c$ ，才能将 $C$ 重写为 $c$ ，即 $b C \to b c, c C \to c c$ 。因此文法 $G (S)$ 为：
$\begin{aligned}S→aBC | aSBC\ \ \ \ \ \ \ (1)\\ CB→BC\ \ \ \ \ \ \ (2)\\ bB→bb\ \ \ \ \ \ \ (3)\\ aB→ab\ \ \ \ \ \ \ (4)\\ bC→bc\ \ \ \ \ \ \ (5)\\ cC→cc\ \ \ \ \ \ \ (6)\end{aligned}$ 下面更详细的分析一下上述文法生成的语言就是 ${a^nb^nc^n | n≥1\}$ ：
首先，通过之前的分析应该能看出，该文法生成的语言一定包括了句子 $a^nb^ne^n$ 。那么就只要说明 $a^nb^ne^n$ 是该文法唯一形式的终结符号串：
可以看出，在使用 $(1)$ 的后半部分产生式消去 $S$ 之前， $(3)$ $(4)$ $(5)$ $(6)$ 都使用不了。而在消去 $S$ 之后，句型就由 $n$ 个 $a$ ，后面跟某种次序的 $n$ 个 $B$ 和 $n$ 个 $E$ 组成。由于没有了 $S$ ，此后就不能使用 $(1)$ 了。目前句型的特点是前面为终结符，后面为非终结符。而 $(3)$ $(4)$ $(5)$ $(6)$ 都只能在终结符和非终结符的边缘使用，并且在任何 $C$ 被转化为 $c$ 之前，所有的 $B$ 都必须在终结符和非终结符的边缘被转化为 $b$ ，否则假设有一个 $C$ 在 $B$ 的右边被转化为了 $c$ ，那么句型为 $a^nb^ic\alpha$ ， $\alpha$ 为由 $B, C$ 组成的串，此时只能使用 $(2)$ $(6)$ ，而无论哪个规则都无法消去 $B$ ，因此假设不成立，进而成功证明 $a^nb^ne^n$ 是该文法唯一形式的终结符号串

2型文法 (上下文无关文法, CFG)

Context-Free-Grammars

若一个1型文法 $G$ 中的规则都具有如下形式：
$A→u，其中 A∈ V_N ， u∈ V^*，V=V_N∪V_T$ 则称 $G$ 为2型文法，又称为上下文无关文法
2型文法所定义的语言是2型语言或称为上下文无关语言，用 $L_2$ 表示

如果 $A \to β$ 是2型文法的产生式，则无论 $A$ 出现在句型中的任何位置，都可将 $A$ 替换为 $β$ 而不需考虑 $A$ 的上下文。这种特性使得对程序设计语言的语法分析（推导或归约）变得相对简单。目前大多数的高级程序设计语言的语法特性都是上下文无关的

例
$L=\{a^mb^n |m>n\geq0\}$
解
$\begin{aligned}S&→aS|aB\\ B&→aBb| ε\end{aligned}$
或者
$\begin{aligned}S&→AB\\ A&→aA|a\\ B&→aBb| ε\end{aligned}$ 2型文法，语言属于２型语言

例
$L=\{a^mbc^m |m\geq1\} ∪\{a^nb^nc^md^m|m,n \geq1\}$

解
$\begin{aligned}G[S]： S&→D|AB\\ D&→aDc| abc\\ A&→aAb| ab\\ B&→cBd| cd\end{aligned}$

例
给出下面文法 $G [S]$ 所产生的语言．
$\begin{aligned}S&→aS|bA| ε①\\ A&→aS|a ②\end{aligned}$

解
②代入①：
$\begin{aligned}G[S]： S&→aS| b(aS|a )| ε\\ S&→aS| baS|ba | ε\\ S&→(a|ba)S| (ba| ε)\end{aligned}$ 所以 $S=(a|ba)^* (ba| ε)$

3型文法（正则文法，Regular Grammar，RG）

若在一个2型文法中仅含有如下形式的产生式：
$U→a 或U→aW（即：右线性文法）其中 U，W∈ V_N， a∈ V_T^*$ 则称 $G$ 为3型文法，又称为正则文法
而仅含有如下形式的产生式
$U \to a 或 U \to W a$ 则称为左线性文法。左线性文法也生成3型语言，即正则语言

左线性文法和右线性文法都称为线性文法，二者是等价的

3 型文法描述的语言为3型语言、正则语言，用 $L_3$ 表示。3型文法可用于描述高级程序设计语言的单词符号。但无法描述嵌套结构
- 如：标识符、无符号整数…都是采用3型文法来描述的
  $\begin{aligned}<ID>→&a | b | …|z \\ &| <ID> a |…| <ID> z\\ &| <ID>0 |… | <ID>9\\ <NUM>→&0 | 1| …|9\\ &| 0<NUM> | 1<NUM> |…| 9<NUM> \end{aligned}$

注意：同一文法中，既有左线性、又有右线性规则，不能称之为正则文法
例如：生成语言 ${0^n1^n | n≥1\}$ 的文法： $G ： S \to 0 S 1 ∣ 01$ （是2型文法）。可改写为： $G_1：S→0A | 01,A→S1$ ，同时有左线性、右线性规则，不是正则文法。该文法生成的语言是2型语言，即上下文无关语言

例
写出生成下述语言的文法，并指出该语言属于２型还是３型语言

$L=\{a^n b^m| n, m \geq1\}$

解
$\begin{aligned}G[S]：S&→AB\\ A&→aA | a\\ B&→bB | b \end{aligned}$
或
$\begin{aligned}G[S]：S&→aS|aB\\ B&→bB | b\end{aligned}$
语言属于3型语言（可写成正则式： $aa^*bb^*$ ）

上题中第一个文法是二型文法，但是描述的语言却是三型语言

四类文法的比较

在上述四类文法中，从0型到3型文法对规则的限制逐渐增加，产生的语言类却逐步缩小，即：

0型语言包含1型语言，1型语言包含2型语言，2型语言包含3型语言
上述定义的4类文法在描述语言的能力上是从0型开始依次减弱（但规则的限制逐步增强）
我们主要研究 2、3型文法

在这里插入图片描述
例
语言的文法规则为： $S \to A ∣ A B, A \to 0 ∣ 0 A, B \to 1 ∣ 11$ ，试写出语言
解
$\Rightarrow A，S \Rightarrow AB\\ A\Rightarrow 0A\Rightarrow 00A ...\Rightarrow 00...00...\\\therefore L（A）=\{0^n | n≥1\}\\ \because B\Rightarrow 1，B \Rightarrow 11\\ \therefore L（B）=\{1, 11\}\\L（S）=L（A）∪L（A）L（B）=\{0, 00, …\}∪\{01, 001, 0001, …\}∪\{011, 0011, 00011, …\}$

例
求下列语言的文法
（1）语言 $\{a^nb^mc^md^n | n,m\geq1\}$
（2）语言 $\{a^nb^nc^md^m | n,m\geq1\}$
（3）语言 $\{wcw| w\in\{a,b\}^*\}$
（4）语言 $\{a^nb^mc^nd^m| n,m\geq0\}$
解
(1) 该语言是上下文无关的
$aAd\\ A→bAc | bc$
(2) 该语言是上下文无关的
$\\A→aAb | ab \\B→cBd | cd$
(3) 该语言是一个抽象语言，第1个 $w$ 代表标识符的声明，第2个 $w$ 代表标识符的引用。这个语言是关于检查程序中标识符的声明应先于其使用的问题的抽象。因此该语言是上下文敏感的。
由于程序设计语言的语法特性绝大多数是上下文无关的，因此编译器是在语法分析阶段检查上下文无关的语法特性，而上下文敏感的语法特性在语义分析阶段检查。

(4) 该语言是关于检查过程声明的形参个数和过程调用的实参个数一致的问题的抽象，是上下文敏感语言。编译器在语义分析阶段检查参数的匹配问题。
例如， $a^n，b^m$ 代表两个过程定义的形参表中形参个数分别是 $n ， m$ 。 $c^n，d^m$ 代表两个过程调用的实参表中实参个数分别是 $n ， m$

**例
为语言 $\{ww| w\in\{a,b\}^+\}$ ，构造文法
解
$S→aSA|bSB|aCA|bCB|aa|bb\\ aA→Aa\\ bA→Ab\\ bB→Bb\\ aB→Ba\\ CA→Ca|a \\ CB→Cb|b$ 解析：第一条规则每循环一次，就生成一对 $a A$ 或 $b B$ ，中间为 $C$ 、如： $a a b a C A B A A$ ；最后两条规则将靠近 $C$ 的 $A$ 和 $B$ 分别变为 $a$ 和 $b$ ，剩下的四条规则负责将生成的中间的 $a$ 和 $b$ 移到最后，从而使生成的句子前后两部分相同

例
令 ${0，1\}$ ，下列语言在结构上有什么样的特点？
（1） $L_1=\{00，01，10，11\}$
（2） $L_2=\{0，1，00，01，10，11，000，…\} =∑^+（正闭包)$ （0、1上的所有非空串）
（3） $L_3=\{ε,0,1,00,01,10,11,000,…\} = ∑*（克林闭包）$
（4） $L_4=\{ 0^n| n\geq1\}$
（5） $L_5=\{0^n1^n| n\geq1\}$
（6） $L_6=\{0^n1^m| n,m\geq1\}$
（7） $L_7 =\{0^n1^n0^n| n\geq1\}$
（8） $L_8 =\{0^n1^m0^k| n,m,k\geq1\}$
（9） $L_9 =\{x|x∈∑^+，且x中0和1的个数相同\}$
（10） $L_{10} =\{0^n1^m0^n| n，m\geq1\}$
（11） $L_{11}=\{xx^R | x∈(0|1)*, x^R是x的逆 \}$

解
(1)~(4) 3型
(5) 2型 (嵌套结构：2型)
(6) 3型 ( $G(S):S\rightarrow0S|0A,A\rightarrow 1A|1$ )
(7) 1型
(8) 3型
(9)~(11) 2型

例
设 $G=\{N,T,P,S\}, N=\{S,A,B\}, T=\{a，b\}$
$\begin{aligned} P: S&→aB|bA\\ A&→a|aS|bAA\\ B&→b|bS|aBB \end{aligned}$ 求产生的语言
解
由相同个数的 $a 、 b$ 组成的串的集合
（可用数学归纳法证明）（ $H i n t :$ 如果 $S$ 中 $a, b$ 数量相等，那么 $B$ 中 $b$ 比 $a$ 多一个， $A$ 中 $a$ 比 $b$ 多一个）

例
给出生成下述语言的文法，并指出语言类型
$语言 L = \{ a^ib^j | i≠j, i,j>0 \}$
解
该语言可视为两个语言的并集：
$L_1 = \{ a^ib^j | i>j>0\}， L_2 = \{ a^ib^j | j>i>0 \}$
文法如下 $\\ A→aA|a \\B→bB|b \\C→aCb|ab$ 具有嵌套结构，因此为2型文法

上下文无关文法及其语法树

语法树(推导树)定义

定义1
设 $G=\{ V_N,V_T,P,S\}$ 是给定的上下文无关文法，对于 $G$ 的任何句型，则称满足下列条件的树为 $G$ 的一棵语法树：

每个结点都有 $G$ 的一个文法符号，且根结点标有初始符 $S$ ，非叶结点标有非终极符
如果结点 $n$ 有标记 $A$ ，其直接子孙结点从左到右的次序是 $n_1， n_2，…，n_k$ ，其标记分别为 $A_1，A_2，…，A_k$ ，那么 $A→A_1A_2…A_k$ 一定是 $P$ 中的一个产生式

语法树是句型推导的直观表示。语法树的结果为：从左到右读出叶子的标记而构成的行

例
$\begin{aligned} G[E]： E&→E+T|T\\ T&→T*F|F \\F&→(E)|a \end{aligned}$

句型推导：
$\begin{aligned} E&\Rightarrow E+T \\&\Rightarrow T+T \\&\Rightarrow F+T \\&\Rightarrow a+T \\&\Rightarrow a+T*F\\&\Rightarrow a+F*F \\&\Rightarrow a+a*F \\&\Rightarrow a+a*a \end{aligned}$ (上述推导为 最左推导：每次只替换最左边的非终结符)
上述句型推导对应的语法树：

在这里插入图片描述

同一句型可能对应不同的语法树

对于一个句子的多种推导（若文法是无二义性的），采用各种推导过程，画出的分析树是一样的
(分析树并未描述推导过程。因此不同的推导可能对应相同的语法树)

如何画出分析树

自顶向下 (最左推导)

在这里插入图片描述

自底向上 (最右推导)

最左 / 右推导左 / 右句型

最左推导：在推导的任何一步 $α\Rightarrow β$ ，其中 $α 、 β$ 是句型，都是对 $α$ 中的最左非终结符进行替换
最右推导：在推导的任何一步 $α\Rightarrow β$ ，其中 $α 、 β$ 是句型，都是对 $α$ 中的最右非终结符进行替换。最右推导被称为规范推导

由最左推导所得的句型称为左句型
由最右推导所得的句型称为右句型（规范句型）

左分析：由文法的开始符号 $S$ 到句子 $x$ 的最左推导中所用规则序列称为 $x$ 的一个左分析。按左分析来建立句子的语法树，则语法树的生长次序是自顶向下的（根→叶子）。因此左分析又称自顶向下分析
右分析：由文法的开始符号 $S$ 到句子 $x$ 的最右推导中所用规则的逆序列称为 $x$ 的一个右分析。按右分析来建立句子的语法树，则语法树的生长次序是自底向上的。因此右分析又称自底向上分析

例
$G [S] :$

$S \to a A S$
$A \to S b A$
$A \to S S$
$S \to a$
$A \to b a$

句型 $a a b b a a$ 的左推导序列如下：

左推导： $S\Rightarrow aAS\Rightarrow aSbAS\Rightarrow aabAS\Rightarrow aabbaS\Rightarrow aabbaa$
对应左分析为： $12454$

例
文法 $G ： S \to c A d, A \to a b, A \to a$
识别输入串 $w = c a b d$ 是否为该文法的句子
自上而下的语法分析
在这里插入图片描述
自下而上的语法分析

子树

一棵分析树中一个特有的结点连同它的全部后裔，连接这些后裔的边以及这些结点的标记称为子树
在这里插入图片描述

短语：一棵子树的所有叶子自左至右排列起来形成一个相对于子树根的短语 (其实短语就是可规约串，每一个短语都可以向上进行归约)
直接短语：仅有父子两代的一棵子树，它的所有叶子自左至右排列起来所形成的符号串
句柄：一个句型的分析树中最左最下那棵只有父子两代的子树的所有叶子的自左至右排列 (即：最左直接短语) (无二义的文法，句柄唯一)

可以进一步给出它们对应的数学定义：

短语：设 $G=(V_N, V_T, P, S)$ ， $\alpha\beta\delta$ 是文法 $G$ 的一个句型。若有： $S\Rightarrow^* αAδ$ 且 $A\Rightarrow^+ β$ ，则称 $β$ 是句型 $α β δ$ 相对于 $A$ 的短语 ( $β$ 可以向上归约为 $A$ ， $A$ 与短语的上下文一起，依然能构成原来的句型)
- 特别地，如有 $A\Rightarrowβ$ ，称 $β$ 是相对于 $A\rightarrowβ$ 的直接短语 (代表可立即归约的串)
一个句型的最左直接短语称为该句型的句柄

句型的分析

自顶向下分析：
- 从文法的开始符号出发，反复使用各种产生式，寻找”匹配“于输入符号串的推导
- 在自顶向下的分析中，难点是用正确的规则去替代非终结符 (回溯:如果使用了错误的规则，确认推不出该句子，就应该退回去，再试另外的选择)
自底向上分析：
- 从输入符号串开始，逐步进行”归约“，直至归约到文法的开始符号
- 在自底向上的分析中，每一步都是选择一个子串，将其规约为某个非终结符。这个子串可以称为”可规约串“。难点是每一步如何确定这个”可规约串“。在一种称为”规范规约“的分析中，这种可规约串称为”句柄“

例
对表达式文法 $G [E]$ 和句子 $a_1+a_2*a_3$ ，挑选出推导过程中产生的句型中的短语，直接短语，句柄
自顶向下分析：
在这里插入图片描述

有下划线的是直接短语

自底向上分析：

句柄在自底向上归约中作为可规约串

在这里插入图片描述

歧义文法（二义文法）

歧义文法 / 二义文法：如果 $L (G)$ 中至少存在一个句子，它有两棵以上的语法树（或有两个不同的最左（右）推导），则称文法 $G$ 是歧义的
- 文法歧义不等价于语言歧义。只有当产生一个语言的所有文法都是歧义的，这个语言才被认为是歧义的
只有文法是非歧义的，语法分析才可唯一进行
- 因此，需要设计出无二义性的文法，或者在使用二义性文法时使用附加的规则来消除二义性 (例如：结合性、运算符的优先级…)

例
$S\rightarrow a |S + S| S S|S * | (S)$ 分析该文法是否为二义性文法
解

是二义性文法

例
有文法 $G_1[E]：E → E+E | E*E |（E）| id| num$ ，分析该文法是否为二义性文法
解

该文法产生语言 ${算术表达式\}$ 。文法中的非终极符 $E$ 代表算术表达式 ( $e x p r$ )，其中助记符 $i d$ 代表标识符， $n u m$ 代表无符号整数
为了判断该文法是否为二义性文法，我们找一个句子 $i d + i d * i d$ ，如果能够构造出两个不同的语法树，则说明该文法是二义性文法

在这里插入图片描述

如上图所示，显然该文法是二义性文法。产生歧义的原因是文法没有限定运算符的优先级和结合性：
- 由于图 (a) 语法树1中的 $*$ 先作为句柄归约，可理解成 $*$ 优先于 $+$ 进行运算，而图 (b) 语法树2中的 $+$ 先作为句柄归约，表示 $+$ 优先于 $*$ 进行运算
- 由于文法的二义性会造成不同的分析结果，所以，从而避免二义性

下面我们尝试通过 规定结合性和优先级 来构造 无二义性的算术表达式 (与上面的二义性算术表达式文法都产生相同的语言 ${算术表达式\}$ ，因此它们是等价文法)：

暂时只涉及 $+ - * /$ 四种符号，它们均为左结合性
优先级分为两级: $* /$ 高于 $+ -$
因此我们用两个非终结符号 $E$ ( $e x p r$ ), $T$ (项, $t e r m$ ) 分别对应于两个优先级层次，并使用 $F$ (因子, $f a c t o r$ ) 来生成表达式中的基本单元
- 表达式的基本单元是数位和带括号的表达式： $F \to (E) ∣ i$
  - $f a c t o r$ 是不能被任何运算符分开的表达式，即在任意因子的任意一边放置一个运算符，都不会导致这个因子的任何部分分离出来，成为这个运算符的运算分量
- 现在我们考虑具有最高优先级的二目运算符 $* /$ 。这些运算符是左结合的： $\ |\ T*F\ |\ T/F$ (按照这样左递归定义，生成的语法树是向左下端生长的，对应左结合律)
  - 一个（不是因子的）项 ( $t e r m$ ) 是一个可能被高优先级的运算符＊和／分开，但不能被低优先级运算符分开的表达式
- 最后，由 $E$ 生成由加减运算符分隔的 $t e r m$ 列表： $T\ |\ E+T\ |\ E-T$
  - 一个（不是因子也不是项的）表达式可能被任何一个运算符分开
最终得到的文法为 $G_2[E]$ ：
$T\ |\ E+T\ |\ E-T\\ T → F \ |\ T*F\ |\ T/F\\ F →(E) | i$
我们可以把上面按照优先等级设计文法的思想推广到具有任意 $n$ 层优先级的情况。我们需要 $n + 1$ 个非终结符号
- 首先， $f a c t o r$ 不可被分开。通常，这个非终结符号的产生式体只能是单个运算分量或括号括起来的表达式
- 然后，对于每个优先级都有一个非终结符，表示能被该优先级或更高优先级的运算符分开的表达式。通常，这个非终结符的产生式有一些产生式体表示了该优先级的运算符的应用；另有一个产生式体只包含了代表更高一层优先级的非终结符号
- 例如，在上面的算术表达式文法中增加单目运算符 $+, -$ ：
  $\begin{aligned}expr&→ expr + term | expr - term | term\\ term&→ term * unary | term / unary | unary\\ unary &→ + factor | - factor | factor\\ factor&→ id | num | (expr)\end{aligned}$

例
程序设计语言中的嵌套 IF 语句都要求 ELSE 与最近的 IF 配对，也是因为 IF 语句的文法存在二义性
例：IF语句文法如下：
$\begin{aligned}<语句> &→ IF<布尔表达式>THEN<语句>\\&|IF<布尔表达式>THEN<语句>ELSE<语句>\\&|<其它>\end{aligned}$ 说明该文法是二义性文法
解
假设有一个IF语句嵌套的句型为：
$IF<布尔表达式>THEN\ IF<布尔表达式>THEN<语句>ELSE <语句>$
根据文法可构造两棵语法树如图 (a)和图(b)所示：

在这里插入图片描述

由于这两棵语法树不同，所以该文法是二义性文法
- 图 (a) IF 语句的语法树意味着 ELSE 和第2个 THEN 配对（就近配对
- 图 (b) IF 语句的语法树表示 ELSE 和第1个 THEN 配对

对实用文法的限制与扩充

简化文法

从实用角度来说，编译原理中所讨论的文法是被简化的文法，即：

文法中不存在 $P \to P$ 的规则（ $P∈V_N$ ），这是一个有害规则，会产生二义性
每个非终极符都必须是可达和可终止的
设 $S$ 是文法的开始符号，对任意 $P∈V_N$ ，若存在 $\Rightarrow^* αPβ$ ，则称 $P$ 是可达的；同时 $\Rightarrow^* γ（γ∈V_T^*）$ ，称 $P$ 是可终止的，又称为活符号

例
化简文法
$\begin{aligned}&① S→aAa\\ &② A→Sb\\ &③ A→bBB\\ &④ B→aC\\ &⑤ B→abb\\ &⑥ C→aCA\end{aligned}$
解

求活符号（Active）
$\begin{aligned}&W [1]=\{B\}\ \ \ \ \ (先从能直接用终结符表示的非终结符开始)\\ &W [2]=\{B, A\}\ \ \ \ \ (加入能直接用终结符以及B表示的非终结符) \\ &W [3]=\{A, B, S\} \\&W [4]=W [3]\ \ \ \ \ (没有增加新的活符号。查找结束)\end{aligned}$ $C$ 不是活符号，因此去掉④和⑥两个含有 $C$ 的产生式。余①②③⑤

待进一步化简文法：
$\begin{aligned}&① S→aAa\\ &② A→Sb\\ &③ A→bBB\\ &⑤ B→abb\end{aligned}$
2. 求可达符（reachable）

$\begin{aligned}&W [1]=\{S\}\ \ \ \ \ \ \ \ (从S开始)\\ &W [2]=\{S, a, A\}\\ &W [3]=\{S, a, A, B, b\} \\ &W [3]=W [4]\end{aligned}$ 简化后的文法：
$S \to a A a ， A \to S b ， A \to b B B ， B \to a b b$

不能先求可达符号，再求活符号：
例如文法 $S \to a S b, S \to b A B, S \to a, B \to d, A \to a A c$ 。如果先求可达符号，再求活符号，会得到 $S \to a S b, S \to a, B \to d$ ，而这里 $B$ 明显是不可达的。究其原因是因为先求可达符号无法消去那些非活符号，进而无法消去一些规则，导致误判可达性

空规则与文法扩充

上下文无关文法中某些规则可具有形式 $A \to ε$ ，称这种规则为 $ε$ 规则（空规则）

引进空规则，给文法的构造带来很大方便，但它使得对文法所定义语言的分析变得较为复杂

例
描述语言 ${a^nba^m | n, m≥0\}$ 的文法
解
① 不带 $ε$ 规则的文法
$b\\ A→aA | a$

② 引进空规则
$S→AbA\\ A→aA |ε$
或
$bA\\ A→aA | ε$

对给定的带 $ε$ 规则的文法，在不生成空串的情况下，可构造出一个不带空规则的等价文法
不带 $ε$ 规则的文法不能生成空串
对任意文法中的任意非终极符 $A$ ，形如 $A \to ε$ 的产生式不会改变文法的语言类型，因此在需要时，可以出现形如 $A \to ε$ 的产生式
原来的1型~3型文法，若想生成空串，可在文法规则 $P$ 中增加新的开始符号 $S^′$ 及新的产生式 $S^′→S$ ， $S^′→ε$ 。而不影响文法的分类
(1型文法要求规则 $\alpha\rightarrow\beta$ 中， $|\alpha|\leq|\beta|$ ，因此右边不可能是 $ε$ .因此，需要单独引入 $ε$ )

定理1
设 $G = (V, T, P, S)$ 为一文法，则存在与 $G$ 同类型的文法 $G ’ = (V ’, T, P ’, S ’)$ ，使得 $L （ G ） = L （ G ’ ）$ ，但 $G ’$ 的开始符号 $S ’$ 不出现在任何产生式的右部
定义1
设 $G = (V, T, P, S)$ 为一文法，如果 $S$ 不出现在 $G$ 的任何产生式的右部，则
（1）如果 $G$ 是 CSG，则仍然称 $G=(V, T, P∪ {S→ε}, S）$ 为 CSG； $G$ 产生的语言仍然称为 CSL
（2）如果 $G$ 是 CFG，则仍然称 $G=(V, T, P∪ {S→ε}, S)$ 为 CFG； $G$ 产生的语言仍然称为 CFL
（3）如果 $G$ 是 RG，则仍然称 $G=(V, T, P∪ {S→ε}, S)$ 为 RG； $G$ 产生的语言仍然称为 RL
定理2
（1）如果 $L$ 是 CSL，则 $L∪\{ε\}$ 仍然是CSL
（2）如果 $L$ 是 CFL，则 $L∪\{ε\}$ 仍然是CFL
（3）如果 $L$ 是 RL，则 $L∪\{ε\}$ 仍然是RL
定理3
（1）如果 $L$ 是 CSL，则 $L-\{ε\}$ 仍然是CSL
（2）如果 $L$ 是 CFL，则 $L-\{ε\}$ 仍然是CFL
（3）如果 $L$ 是 RL，则 $L-\{ε\}$ 仍然是RL