Z-Algorithm详解

Z-Algorithm是一种用于字符串匹配的高效算法,时间复杂度为线性。通过计算zi(s)来找到模式串p在文本串t中的所有出现位置。在已知zi(s)的情况下,可以结合zi(s)与p的长度来确定匹配位置。算法通过扫描和暴力匹配相结合的方式求解zi,适用于处理大规模数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Z-Algorithm详解

0.前言

给你一个文本串ttt和一个模式串ppp,让你寻找pppttt中出现的所以位置。

例如,t="abacababac"t="abacababac"t="abacababac"p="aba"p="aba"p="aba",那么pppttt中出现了333次,起始位置在ttt中的下标分别是111555777

很显然可以想到O(∣t∣∗∣p∣)O(|t|*|p|)O(tp)的暴力算法,即以每一个位置为起始位置,暴力匹配每一个字符。但是如果tttppp的长度都是10510^5105级别的就会超时,我们需要更高效的方法。在中国有一个KMPKMPKMP算法比较流行,但是我个人比较喜欢Z−algorithmZ-algorithmZalgorithm。这里我给大家讲一下这个。

1.一些函数的定义

我们定义zi(s)z_i(s)zi(s)为对于所有的2≤i≤∣s∣2 \leq i \leq |s|2is,以iii开头的子串和sss的最长公共前缀的长度

如:

s="aba"s="aba"s="aba",那么z3(s)=1z_3(s)=1z3(s)=1(以333为起始位置,能够匹配sss长度为111的前缀"a""a""a",但匹配不了长度为222的前缀"ab""ab""ab")。

s="abcabcab"s="abcabcab"s="abcabcab",那么z4(s)=5z_4(s)=5z4(s)=5

s="abacababaca"s="abacababaca"s="abacababaca",那么z5(s)=3,z7(s)=5z_5(s)=3, z_7(s)=5z5(s)=3,z7(s)=5

2.如果已知ziz_izi的值如何求出答案

我们将ppp粘在sss的前面,中间用一个字符(如下划线)隔开,可以得到一个字符串sss。我们假设我们已经知道了所有zi(s)z_i(s)zi(s)的值,那么怎么求出答案呢。

我们可以扫描sss串中从∣p∣+2|p|+2p+2一直到∣p∣+∣t∣+1|p|+|t|+1p+t+1的位置iii,也就是原来的ttt字符串的位置,然后判断zi(s)z_i(s)zi(s)是否等于ppp字符串的长度。如果等于,那么在以ttt字符串的这个位置就可以匹配ppp字符串。

为什么这个方法是正确的?

首先,根据zi(s)z_i(s)zi(s)的定义,它表示以iii开头的子串和sss的最长公共前缀的长度。我们知道,sss是由ppp粘在ttt的前面得到的,因此sss的前缀实际上就是ppp字符串,而又因为我们ppp

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值