学习笔记-KMP算法和暴力匹配算法-优快云博客

本文链接：https://blog.youkuaiyun.com/touteng55/article/details/115450318

本文介绍了在字符串匹配问题中，暴力匹配法和KMP算法的应用。暴力匹配法通过两个指针比较字符串，遇到不匹配时回溯。KMP算法通过部分匹配值表避免无效比较，提高效率。文章提供了部分匹配表的生成方法，并详细解释了KMP算法的查找过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有两个字符串，原字符串和子字符串，在原字符串里寻找子字符串出现的位置，如果有，返回对应下标，如果没有，返回-1。解决这个问题可以用到两个方法，暴力匹配和KMP算法。
这个视频更好懂一点–>link

暴力匹配法

思路是：用两个下标，i指向原字符串，j指向子字符串。比较str1[i]和str2[j]相不相等，如果相等，就进入比较状态，比较后续的字符相不相等，把两个下标后移一位，比较两字符串的下一个字符相不相等，如果一直相等，当j移动到尾时，说明整个字符串都相等，这时就可以退出，输出位置。如果遇到了str1[i]和str2[j]不相等的情况，应该回退到进入比较状态之前，把i移动到最开始字符相等的下一位 i=i-j+1，j重新置为0，重复以上过程。如果直到i指向原字符串末尾也没有输出，那就代表没找到子串，返回-1。

//暴力匹配法
    public static int violenceMatch(String s1,String s2){
        char[] str1=s1.toCharArray();
        char[] str2=s2.toCharArray();
        int i=0;
        int j=0;
        while (i<str1.length && j<str2.length){
            if(str1[i]==str2[j]){
                i++;
                j++;
            }else {
                //没匹配到就把i移动到刚开始和j匹配的后一位
                i = i - j + 1;
                j = 0;
            }
        }
        if(j==str2.length){
            return i-j;
        }
        return -1;
    }

KMP算法

在这里插入图片描述

在进行暴力匹配法时，每次遇到不匹配的情况，就会回溯到开始比对相不相等的下一位，也就是i每次只前进1位，按照上图，从a->a开始比较，abcdab都是匹配的，d不匹配，这时就回到a后一位也就是b，比较b->a。但是在比较d的那次，我已经知道前面的顺序是abcd。。。，也就是a后面跟得是bcd，再用子字符串的a去对应b肯定是不可能比配的，我应该把子字符串的去跟原字符串的bcd后的那个a比较才有可能找到相同，因为我在上一次的比较中已经知道原字符串a后的是bcd，而子串也是abcd，这时候去比较b->a是没有意义的。
为了减少这种无意义的比较，发明了kmp算法。kmp算法的目的就是在比较时让下标i跳过这些无意义的比较，从而提高效率。

kmp算法
首先获得子串的部分匹配值表
在这里插入图片描述
部分匹配值表示对应子串的最大公共前后缀长度，比如a->0，就表示a这个串没有相等的前后缀，因为a只有一个字符，它没有前后缀，b->0，就表示ab这个串没有相等的前后缀，因为ab的前缀是a后缀是b，不相等，就是0，b->2，就表示abcdab这个串，最大的相等前后缀长度为2，因为它的前缀是a|ab|abc|abcd|abcda，后缀是bcdab|cdab|dab|ab|b，ab是相等且最长的，长度为2，所以就是2
注意这里的值是前缀与后缀相等中最长的那个缀的长度，而不是这个串的回文长度，这两个是不一样的

如何求的部分匹配表（说实话，不太懂，可以看b站视频KMP讲解）
在这里插入图片描述
prefix为部分匹配表
首先，因为子串的第一个字符没有前后缀，所以prefix第一位肯定为0。有一个规律，当我们填8这一位的prefix值时，7的prefix是3，也就是说子串前三个肯定是相等的，那么如果8的prefix要为4，p[8]只要等于子串的第四个字符就好，也就是prefix[7]作为下标的p里的值，就是p[8]是否等于p[len]，len既是p的下标也是最长的公共前后缀匹配值，如果相等，len就加一，然后把len存进匹配表。假如不相等，不用从头比较（这样就跟暴力算法一样了），因为在之前的比较中已经获得了信息，跟动态规划有点像，这个结果的获得跟之前的结果有联系，而不是独立的。这时让len=prefix[len-1]（为啥要这样我也没懂，但这是算法的核心），直到len<0或者相等。假如len=0了，还是不相等，就说明找不到一样的前后缀了，之间把len存进prefix，假如len=0并相等了，就进入之前的情况，len+1并存入prefix。

//求prefix数组
    public static int[] getNext(String str){
        char[] arr=str.toCharArray();
        int[] prefix=new int[arr.length];
        int len=0;
        prefix[0]=0;

        for (int i = 1; i <arr.length ; i++) {
            while (len>0&& arr[i]!=arr[len]){
                len=prefix[len-1];
            }
            if(arr[i]==arr[len]){
                len++;
                prefix[i]=len;
            }
        }
        return prefix;
    }

之后，正式进行子串的查找
遍历原字符串，i指向原串，最好用for循环，while循环会麻烦一点。j指向子串，如果str1.charAt(i) == str2.charAt(j)，说明匹配到了，j++继续看下一个匹不匹配（不用i++是因为是for循环，i每次自动++了，只++j就好），如果一直匹配，当j=子串的长的时候（为什么不是等于length-1是因为匹配到的时候已经把j++了让j指向下一位了）就说明全部匹配，就说明找到了，直接返回下标i-j+1(因为此时i还没有++，而j已经++，i就比j小一，就要加回来)，当不匹配时，j = next[j-1]，直到j<=0或相等，逻辑其实和上面求匹配表时一样，原理我也不是很懂，可以看kmp解释。这部分涉及到算法设计的数学原理，不是很好理解
如果最终也没有输出，说明没找到，返回-1

//写出我们的 kmp 搜索算法
/**
*
* @param str1 源字符串
* @param str2 子串
* @param next 部分匹配表, 是子串对应的部分匹配表
* @return 如果是-1 就是没有匹配到，否则返回第一个匹配的位置
*/
public static int kmpSearch(String str1, String str2, int[] next) {
	//遍历
	for(int i = 0, j = 0; i < str1.length(); i++) {
	//需要处理 str1.charAt(i) ！= str2.charAt(j), 去调整 j 的大小
	//KMP 算法核心点, 可以验证... 
		while( j > 0 && str1.charAt(i) !=str2.charAt(j)) {
			j = next[j-1];
		}
		if(str1.charAt(i) == str2.charAt(j)) {
			j++;
		}
		if(j == str2.length()) {//找到了 // j = 3 i
			return i - j + 1;
		}
	}
	return -1