形式语言与自动机

最新推荐文章于 2023-10-02 18:15:11 发布

原创

最新推荐文章于 2023-10-02 18:15:11 发布 · 1.4k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#确定有穷自动机 #非确定性有穷自动机

文章目录

绪论
上下文无关文法与上下文无关语言
正规表达式与正规语言
有限状态自动机
正规语言的性质与运算
下推自动机
上下文无关语言的性质与运算
- Pumping引理
- 上下文无关语言的封闭运算
图灵机

绪论

字母表

概念：形式符号的非空有限集合

集合：常用 $\Sigma$ 表示

字符串

概念：字母表 $\Sigma$ 上的一个字符串，为 $\Sigma$ 中字符构成的有限序列

空串：常用 $\varepsilon$ 表示

幂运算：设 $\Sigma$ 为字母表， $n$ 为任意自然数，定义

（1） $\Sigma^0=\{\varepsilon\}$

（2）设 $x\in \Sigma^{n-1},a\in \Sigma$ ，则 $ax\in \Sigma^{n}$

（3） $\Sigma^{n}$ 中元素只能由（1）（2）生成

字母表中可以包含空字符，所以 $\Sigma^i$ 的元素的长度不一定为 $i$

*闭包： $\Sigma^{*}=\Sigma^0\cup\Sigma^1\cup...$

+闭包： $\Sigma^{+}=\Sigma^1\cup\Sigma^2\cup...$

语言

概念：设 $\Sigma$ 为字母表，则任何集合 $L\subseteq\Sigma^*$ 是字母表 $\Sigma$ 上的一个语言

语言的连接： $LM=\{w_1w_2|w_1\in L\wedge w_2\in M\}$

语言的闭包： $L^*=L^0\cup L^1\cup L^2...$

上下文无关语言与下推自动机

设 $\Sigma=\{0,1\},L=\{0^n1^n|n\geq 1\}$

下推自动机识别：维护一个栈，转移方向由栈顶和字符共同确定，每次转移识别一个字符并对栈进行修改

图灵机及其语言

设 $\Sigma=\{0,1,2\},L=\{0^n1^n2^n|n\geq 1\}$ ，则不存在任何自动机和下推自动机可以识别该语言，但是总存在一个图灵机可以识别

归纳证明法

1.基础：至少包含集合中一个元素

2.归纳：由已知元素生成新元素

3.极小性限制：集合中的元素只能由1、2生成

上下文无关文法与上下文无关语言

##上下文无关文法的基本概念

设 $\sum=\{0,1\}，L=\{0^n1^n|n\geq 1\}$

则接受该语言的文法为 $S\rightarrow01$ ， $S\rightarrow 0S1$

四个基本要素：终结符集合 $T$ ，非终结符集合 $V$ ，开始符号 $S$ ，产生式集合 $P$

一个上下文无关文法是一个四元组 $G = (V, T, P, S)$ ，其中 $V\cap T=\varnothing$ ， $S\in V$ ，产生式规则形如 $A\rightarrow \alpha$ ， $\alpha \in(V\cup T)^{*}$

对于文法： $E\rightarrow EOE$ ， $E\rightarrow (E)$ ， $E\rightarrow v$ ， $E\rightarrow d$ ， $O\rightarrow +$ ， $O\rightarrow *$

$G=(\{E,O\},\{(,),+,*,v,d\},P,E)$

缩记方式： $E\rightarrow EOE|(E)|v|d$

归约与推导

推理字符串是否符合文法定义语言，归约是由字符串推出开始符号，推导是由初始符号推出字符串

计算机实现归约（CKY算法）：动态规划，全枚举，由于 $E\rightarrow (E)$ 是三叉，时间复杂度较高

计算机实现推导（EARLY算法）：维护两个栈，将规则推入栈中进行探索

最左推导：每一步替换最左边的非终结符

最右推导：

句型：设 $CFG\;\;G=(V,T,P,S)$ ，称 $\alpha\in (V\cup T)^*$ 为 $G$ 的一个句型，当且仅当 $S\overset{*}{\rightarrow}\alpha$

若 $S\xrightarrow[lm]{*}\alpha$ ，称 $\alpha$ 是一个左句型

若句型 $\alpha\in T^*$ ，则称 $\alpha$ 为一个句子

上下文无关语言

设 $CFG\;\;G=(V,T,P,S)$ ，定义 $G$ 的语言为 $L(G)=\{w|w\in T^*\wedge S\xrightarrow[G]{*} w\}$

上下文无关语言：由CFG生成的语言

证明给定语言L是某个文法G的语言

一般步骤： $\;w\in G\;then\;w\in L(G)$ ； $if\;w\in L(G)\;then\;w\in L$

文法与语言的Chomsky分类方法

文法： $G = (V, T, P, S)$

0型文法：产生式形如 $\alpha \rightarrow \beta$ ，其中 $\alpha$ 中至少包含一个非终结符，相当于图灵机

1型文法：产生式形如 $\alpha \rightarrow \beta$ ， $|\alpha|\leq |\beta|$ ，当 $S\rightarrow \varepsilon$ 例外，且S不得出现在任何产生式右侧，上下文有关文法，相当于线性有界自动机

2型文法：产生式形如 $A\rightarrow \beta$ ，其中 $A\in V$ ，上下文无关文法，下推自动机

3型文法：产生式形如 $A\rightarrow aB$ 或 $A\rightarrow a$ ，正规文法，有限状态自动机

语法分析树

语法分析树：推导过程自上而下构成一棵树，满足以下条件

(1)每个内部节点由一个非终结符标记

(2)每个叶节点或由一个非终结符，或由一个终结符，或由 $\varepsilon$ 标记，但是当为 $\varepsilon$ 标记，为父节点唯一孩子

(3)若一个内部节点标记为A，孩子从左到右为 $X_1...X_k$ ，则 $A\rightarrow X_1...X_k$ 为产生式

语法树的果实：叶节点从左到右连接起来

文法和语言中的二义性

存在句子对应至少两个语法分析树/最左推导的文法是有二义性的

上下文无关语言L的所有文法都是二义性的，则称L为固有二义性

例： $L=\{a^nb^nc^md^m|n\geq1,m\geq 1\}\cup\{a^nb^mc^md^n|n\geq1,m\geq 1\}$

消除二义性的方式：

算符优先级联(将一种算符处理完再处理别的算符)

左结合(左算符优先)

最近嵌套匹配(消除悬垂else二义性)

正规表达式与正规语言

正规表达式

作用于正规表达式的三种运算：

$L\cup M=\{w|w\in L\vee w\in M\}$

$L\cdot M=\{w_1w_2|w_1\in L\wedge w_2\in M\}$

$L^*=\cup_{i\geq 0}L^i$

语法：设字母表 $\Sigma$ ，正规表达式集合 $R$

基础： $\varepsilon,\varnothing \in R$ $a\in \Sigma\Rightarrow a\in R$ $\forall 变量 L \in R$

归纳： $E\in R\wedge F\in R\Rightarrow E+F\in R$ ； $E\in R\wedge F\in R\Rightarrow EF\in R$ ； $E\in R\Rightarrow E^*\in R$ ； $E\in R\Rightarrow (E)\in R$

语义：对每个不含变量的 $E\in R$ ， $E$ 的语言 $L (E)$ 递归定义如下

基础： $L(\varepsilon)=\{\varepsilon\}$ ； $L(\varnothing)=\varnothing$ ； $a\in \Sigma \Rightarrow L(a)=\{a\}$

归纳： $E\in R\wedge F\in R\Rightarrow L(E+F)=L(E)\cup L(F)$ ； $E\in R\wedge F\in R\Rightarrow L(EF)=L(E)L(F)$ ； $E\in R \Rightarrow L(E^*)=(L(E))^*$ ； $L ((E)) = L (E)$