从正负样本推断正则迹语言
1. 引言
在语法推断领域,有限自动机的推断一直是核心课题。其中,RPNI 算法广受欢迎,许多算法也试图对其进行改进。一种改进思路是针对正则语言的子类开展工作,例如 FCRPNI 算法,它基于 RPNI 算法,但只有当状态合并结果属于相应子类的自动机时才允许合并。还有一种思路是为特定子类定义新的自动机类型,并将 RPNI 的思想应用其中,不过像针对交换正则语言的算法,由于交换正则语言只是正则语言的一个极小子类,其应用范围受限。
正则迹语言作为一种特殊的正则语言,在独立性关系下封闭,即字母表中的单词可以交换顺序。当独立性关系为相等关系时,得到的就是正则语言;当独立性关系将字母表中的每个字母都关联起来时,得到的是交换正则语言。本文旨在提出一种推断正则迹语言的算法,证明其收敛性,并分析其复杂度。
2. 预备知识
- 字母表与单词 :设 Σ 为有限字母表,其元素称为字母。Σ 表示由 Σ 上所有单词组成的集合,在连接运算下,Σ 构成以 Σ 为生成元集的自由幺半群,空单词 λ 为单位元。
- 单词的相关概念 :对于 Σ 中的单词 x,|x| 表示其长度,|x|a 表示字母 a 在 x 中出现的次数,Alph(x) 表示 x 中出现的所有字母的集合。若存在 Σ 中的单词 y 使得 x = py,则称 p 是 x 的前缀。Pref(x) 表示 x 的所有前缀组成的集合,Prefa(x) 表示以字母 a 结尾的 x 的前缀组成的集合。这些概念可扩展到语言,对于语言 L ⊆ Σ* 和字母 a ∈ Σ,P
超级会员免费看
订阅专栏 解锁全文
825

被折叠的 条评论
为什么被折叠?



