形式语言理论基础:从概念到应用
1. 引言
语言可分为自然语言和形式(人工)语言。自然语言,如英语和西班牙语,是人类在交流中自然演变而来的;而人工语言,像编程语言 C++,则是为特定目的而设计的。形式语言理论起源于数学和语言学,A. Thue 和 E. Post 引入了重写系统的形式概念,A. Turing 提出了计算模型的想法,N. Chomsky 在 20 世纪 50 年代开创了语法和语言结构的研究,并提出了乔姆斯基层次结构。早期的形式语言基于重写,催生了树形计算模型,而上下文语法的出现带来了新的语言类型,引发了自然语言形式化的新视角。由于语言学家对自然语言在乔姆斯基层次结构中的位置存在分歧,温和上下文敏感形式主义应运而生。
2. 基本概念
2.1 字母表、字符串和语言
- 字母表 :字母表 V 是有限字母集,通过字母连接可得到无限字符串集合 V*。空字符串 λ 是连接操作的单位元。
- 字符串属性 :字符串 w 的长度 |w| 是其包含的字母数,如 |λ| = 0。w 是 v 的子串当且仅当 v = u1wu2。特殊子串包括真子串、前缀和后缀。w 的 i 次迭代连接可表示为 wi,w 的镜像为 w 的反转。
- 语言 :任意 V 的子集(包括 Ø 和 {λ})都是语言,V⁺ = V - {λ}。
2.2 语言操作
- 集合操作 :包括并集(L1 ∪ L2 =
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



