编译原理--正则表达式

最新推荐文章于 2023-05-13 19:16:38 发布

Meskjei

最新推荐文章于 2023-05-13 19:16:38 发布

阅读量9.3k

点赞数 2

分类专栏：编译原理文章标签：正则表达式编译原理

本文链接：https://blog.youkuaiyun.com/hjc256/article/details/86666876

版权

29 篇文章

订阅专栏

本文深入探讨了正则表达式的概念，通过实例解释了如何将正则语言用正则表达式紧凑表示。内容包括正则表达式的定义、构造规则以及与正则文法之间的等价性，阐述了正则表达式在描述和处理字符串模式中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语言

L=\{a\}\{a,b\}^*(\{\epsilon \} \cup (\{.,\_\}\{a,b\}\{a,b\}^*))

这个语言是指，由a开头，后接任意长度的a、b串，然后再接空串（代表结束）。或者是接以.或_开头的，后接长度大于等于1的a、b串。

正则表达式（Regular Expression, RE）是一种用来描述正则语言的更紧凑的表示方法。

以上面的语言举例，写成正则表达式则可表示成： $r=a(a|b)^*(\epsilon | (.|_)(a|b)(a|b)^*)$

正则表达式可以由较小的正则表达式按照特定规则递归地构建。每个正则表达式r定义一个语言。记为L(r)。这个语言也是根据r的子表达式所表示的语言递归定义的。

定义

如果 $\epsilon$ 是一个RE， $L(\epsilon) = \{\epsilon\}$
如果 $\alpha \in \sum$ ，则 $\alpha$ 是一个RE, $L(\alpha)=\{\alpha\}$
假设r和s都是RE，表示的语言分别是L(r)和L(s)，则
- $r ∣ s$ 是一个RE， $\cup L(s)$
- rs（r连接s）是一个RE， $L (r ∣ s) = L (r) L (s)$
- $r^*$ 是一个RE， $L(r^*) = (L(r))^*$
- $(r)$ 是一个RE， $L ((r)) = L (r)$

注：运算的优先级：*、连接、|

例： $\sum = \{a,b\}$ ，则

$\cup L(b) = \{a\} \cup \{b\} = \{a,b\}$
$L((a|b)(a|b)) = L(a|b)L(a|b) = \{a,b\}\{a,b\} = \{aa,ab,ba,bb\}$
$L(a^*) = (L(a))^* = \{a\}^* = \{\epsilon,a,aa,aaa,...\}$
$L((a|b)^*) = (L(a|b))^* = {a,b}^* = \{\epsilon,a,b,aa,ab,ba,bb,...\}$
$L(a|a^*b) = L(a) \cup L(a^*b) = L(a) \cup L(a^*)L(b) = \{a,b,ab,aab,aaab,...\}$

注：可以用RE定义的语言叫做正则语言(regular language)或正则集合(regular set)。