求回文子串O(n) manacher 算法

本文介绍Manacher算法,一种用于快速查找字符串中最大回文子串的方法,时间复杂度为O(n)。通过在原始字符串中插入分隔符统一处理奇偶长度的回文串,并利用辅助数组记录回文子串信息,实现高效的求解过程。此外,文章对比了Manacher算法与传统方法的时间复杂度,并提供了具体的代码实现。
回文串定义:“回文串”是一个正读和反读都一样的字符串,比如“level”或者“noon”
等等就是回文串。
回文子串,顾名思义,即字符串中满足回文性质的子串。
经常有一些题目围绕回文子串进行讨论,比如HDOJ_3068_最长回文,求最长回文子
串的长度。朴素算法是依次以每一个字符为中心向两侧进行扩展,显然这个复杂度是O(N^2)
的,关于字符串的题目常用的算法有KMP、后缀数组、AC 自动机,这道题目利用扩展KMP
可以解答,其时间复杂度也很快O(N*logN)。但是,今天笔者介绍一个专门针对回文子串

的算法,其时间复杂度为O(n),这就是manacher 算法。

回文串定义:“回文串”是一个正读和反读都一样的字符串,比如“level”或者“noon”
等等就是回文串。
回文子串,顾名思义,即字符串中满足回文性质的子串。
经常有一些题目围绕回文子串进行讨论,比如HDOJ_3068_最长回文,求最长回文子
串的长度。朴素算法是依次以每一个字符为中心向两侧进行扩展,显然这个复杂度是O(N^2)
的,关于字符串的题目常用的算法有KMP、后缀数组、AC 自动机,这道题目利用扩展KMP
可以解答,其时间复杂度也很快O(N*logN)。但是,今天笔者介绍一个专门针对回文子串
的算法,其时间复杂度为O(n),这就是manacher 算法。
大家都知道,求回文串时需要判断其奇偶性,也就是求aba 和abba 的算法略有差距。
然而,这个算法做了一个简单的处理,很巧妙地把奇数长度回文串与偶数长度回文串统一考
虑,也就是在每个相邻的字符之间插入一个分隔符,串的首尾也要加,当然这个分隔符不能
再原串中出现,一般可以用‘#’或者‘$’等字符。例如:
原串:abaab
新串:#a#b#a#a#b#

这个算法有一个很巧妙的地方,它把奇数的回文串和偶数的回文串统一起来考虑了。这一点一直是在做回文串问题中时比较烦的地方。这个算法还有一个很好的地方就是充分利用了字符匹配的特殊性,避免了大量不必要的重复匹配。
算法大致过程是这样。先在每两个相邻字符中间插入一个分隔符,当然这个分隔符要在原串中没有出现过。一般可以用‘#’分隔。这样就非常巧妙的将奇数长度回文串与偶数长度回文串统一起来考虑了(见下面的一个例子,回文串长度全为奇数了),然后用一个辅助数组P记录以每个字符为中心的最长回文串的信息。P[id]记录的是以字符str[id]为中心的最长回文串,当以str[id]为第一个字符,这个最长回文串向右延伸了P[id]个字符。
原串: w aa bwsw f d
新串: # w# a # a # b# w # s # w # f # d #
辅助数组P: 1 2 1 2 3 2 1 2 1 2 1 4 1 2 1 2 1 2 1


这里有一个很好的性质,P[id]-1就是该回文子串在原串中的长度(包括‘#’)。如果这里不是特别清楚,可以自己拿出纸来画一画,自己体会体会。当然这里可能每个人写法不尽相同,不过我想大致思路应该是一样的吧。
好,我们继续。现在的关键问题就在于怎么在O(n)时间复杂度内求出P数组了。只要把这个P数组求出来,最长回文子串就可以直接扫一遍得出来了。
由于这个算法是线性从前往后扫的。那么当我们准备求P[i]的时候,i以前的P[j]我们是已经得到了的。我们用mx记在i之前的回文串中,延伸至最右端的位置。同时用id这个变量记下取得这个最优mx时的id值。(注:为了防止字符比较的时候越界,我在这个加了‘#’的字符串之前还加了另一个特殊字符‘$’,故我的新串下标是从1开始的)

void Manacher(int *rad, char *str, int n) { /* str 是这样一个字符串(下标从1开始):
	举例:若原字符串为"abcd",则str为"$#a#b#c#d#",最后还有一个终止符。
	n为str的长度,若原字符串长度为nn,则n=2*nn+2。
	rad[i]表示回文的半径,即最大的j满足str[i-j+1...i] = str[i+1...i+j],
	而rad[i]-1即为以str[i]为中心的回文子串在原串中的长度*/
	int i, id = 0, mx = 0;
	for(i = 1; i < n; i++) {
		if(mx > i) {
			rad[i] = min(rad[2*id - i], mx - i);
		}
		else rad[i] = 1;

		while(str[i+rad[i]] == str[i-rad[i]]) rad[i]++;

		if(rad[i] + i > mx) {
			mx = i + rad[i]; 
			id = i;
		}
	}
}

代码是不是很短啊,而且相当好写。很方便吧,还记得我上面说的这个算法避免了很多不必要的重复匹配吧。这是什么意思呢,其实这就是一句代码。

if( mx > i)
p[i]=MIN( p[2*id-i], mx-i);

就是当前面比较的最远长度mx>i的时候,Pi]有一个最小值。这个算法的核心思想就在这里,为什么P数组满足这样一个性质呢?
(下面的部分为图片形式)




看完这个算法,你有可能会觉得这种算法在哪会用到呢?其实回文串后缀数组也可以做。只是复杂度是On log n)的,而且一般情况下也不会刻意去卡一个log n的算法。可正好hdu就有这么一题,你用后缀数组写怎么都得T(当然应该是我写得太烂了)。不信的话大家也可以去试试这题。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值