LCP数组的实现和最长公共连续子串

本文介绍了LCP数组的概念及其与后缀数组的关系,详细解析了如何通过后缀数组快速计算LCP数组,并提供了两个实用案例:寻找字符串中最长重复子串及求两字符串的最长公共连续子串。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

LCP数组(Longest Common Prefix Array, 高度数组):是由后缀数组中相邻两个后缀的最长公共前缀的长度组成的数组。

假设字符串S, 后缀数组sa, LCP数组lcp, 那么有后缀S[sa[i]...]与S[sa[i + 1]...]的最长公共前缀的长度为lcp[i]。

lcp的计算: (后缀数组的实现)假设S[i...]与S[sa[rank[i]]...]的前h个字符的长度相等, 那么S[i+1...]与S[sa[rank[i + 1]]...]的前h - 1个字符也相等。 那么可以在O(n)的时间内求出lcp哦。

lcp的简单应用:

1)求一个字符串中出现次数至少两次的最长子串的长度。比如abracadabra,那么结果为4(abra出现两次且最长)。那么怎么利用lcp来求出答案呢?由后缀数组和lcp的性质可以知道,子串的开始位置在后缀数组中相距越远,其公共前缀的长度也就越短。找出lcp中最大的值,就是答案了。

2)求两个字符串的最长公共连续子串。利用上面的结论,可以把两个字符串连接起来,然后对其求lcp即可。

S="abracadabra"的lcp
isa[i]lcp[i]S[sa[i]...]
0110'\0'(空)
1101a
274abra
301abracadabra
431acadabra
550adabra
683bra
710bracadabra
840cadabra
960dabra
1092ra
112-racadabra

#include <stdio.h>
#include <string.h>
#include <algorithm>
using namespace std;

#define MAX_N 10005
#define max(a, b) (a > b ? a : b)

char strA[MAX_N], strB[MAX_N], strC[MAX_N*2 + 5];
int sufArr[MAX_N], lcp[MAX_N], rank[MAX_N], temp[MAX_N];
int n, k;

bool compareSufArr(int i, int j) {
	int ri, rj;	
	
	if (rank[i] != rank[j]) {
		return rank[i] < rank[j];
	} else {
		ri = i + k <= n ? rank[i + k] : -1;
		rj = j + k <= n ? rank[j + k] : -1;
		return ri < rj;
	}
}

void constructSufArr(char* str, int* sa, int len) {
	int i;

	n = len;
	for (i = 0; i <= n; i++) {
		sa[i] = i;
		rank[i] = i < n ? str[i] : -1;
	}

	for (k = 1; k <= n; k *= 2) {
		sort(sa, sa + n + 1, compareSufArr);

		temp[sa[0]] = 0;
		for (i = 1; i <= n; i++) {
			temp[sa[i]] = temp[sa[i - 1]] + (compareSufArr(sa[i - 1], sa[i]) ? 1 : 0);
		}

		for (i = 0; i <= n; i++) {
			rank[i] = temp[i];
		}
	}
}

// 构造后缀数组的lcp
void constructLcp(char* str, int* sa, int* cp, int len) {
	int i, j;
	int h;

	for (i = 0; i <= len; i++) {
		rank[sa[i]] = i;
	}

	h = 0;
	cp[0] = 0;
	for (i = 0; i < len; i++) {
		j = sa[rank[i] - 1];

		if (h > 0) {
			--h;
		}

		while (i + h < n && j + h < n && str[i + h] == str[j + h]) {
			++h;
		}

		cp[rank[i] - 1] = h;
	}
} // O(n)


// 求一个字符串中出现过的最长重复子串
int lrs(char* str) {
	int len;
	int res;
	int i;
	
	len = strlen(str);
	constructSufArr(str, sufArr, len);
	constructLcp(str, sufArr, lcp, len);
	
	res = 0;
	for (i = 0; i < len; i++) {
		res = max(res, lcp[i]);
	}
	
	return res;
}

// 求两个字符串的最长公共连续子串
int lcs(char* ms, char* ss) {
	int ml, sl, len;
	int res;
	int i;

	ml = strlen(ms), sl = strlen(ss);

	// strC = ms + '\0' + ss
	strcpy(strC, ms);
	strC[ml + 1] = '\0';
	strcpy(strC + ml + 2, ss);

	// 对strC求后缀数组和lcp
	len = ml + sl + 2;
	constructSufArr(strC, sufArr, len);
	constructLcp(strC, sufArr, lcp, len);

	//
	res = 0;
	for (i = 0; i < len; i++) {
		// 需要分属不同的字符串,否则就变成了在同一个字符串中求最长公共连续子串的长度
		if ((sufArr[i] < ml) != (sufArr[i + 1] < ml)) {
			res = max(res, lcp[i]);
		}
	}

	return res;
}

int main() {

	while (scanf("%s%s", strA, strB) != EOF) {
		printf("%d %d\n", lrs(strA), lrs(strB));

		printf("%d\n", lcs(strA, strB));
	}

	return 0;
}
qbvdvghj suffixarray

abracadabra suffixarray

suffixarray abracadabra

abcdefg abcdefg

xyzqu iopcye

### 使用字典树(Trie)实现最长公共子串 对于多个字符串的最长公共子串问题,一种有效的方法是利用字典树(Trie)。通过构建一个特殊的 Trie 结构并对其进行遍历分析,能够高效地找到这些字符串之间的最长公共子串。 #### 构建带有标记的 Trie 树 为了处理这个问题,在建立 Trie 的过程中需要对节点做特殊标记。每当插入一个新的单词时,如果当前路径上的某个节点已经被其他不同源字符串访问过,则在此处打上标志位表示这是一个潜在的共同起点[^1]。 ```python class TrieNode: def __init__(self): self.children = {} self.string_from = set() # 记录经过此节点的不同原字符串索引集合 def insert(trie_root, word, index): node = trie_root for char in word: if char not in node.children: node.children[char] = TrieNode() node = node.children[char] node.string_from.add(index) trie_root = TrieNode() for i, string in enumerate(strings_list): # strings_list 是输入的多条待比较字符串列表 insert(trie_root, string, i) ``` #### 寻找最大深度共有分支 完成上述操作后,整个 Trie 就包含了所有输入字符串的信息,并且每个内部节点都记录了哪些原始字符串共享这条边。接下来的任务是从根出发沿着那些被至少两个以上来源所使用的路径向下走直到不能再前进为止;此时到达的位置对应的字符串片段即为所需寻找的一个候选答案之一[^3]。 ```python def find_lcs(node, current_path=""): common_prefixes = [] if len(node.string_from) >= 2 and node != trie_root: lcp_length = sum([len(current_path)] * (len(node.string_from)-1)) global max_lcp_length, result_str if lcp_length > max_lcp_length: max_lcp_length = lcp_length result_str = current_path for child_char, next_node in node.children.items(): new_current_path = current_path + child_char find_lcs(next_node, new_current_path) max_lcp_length = -float('inf') result_str = "" find_lcs(trie_root) print(f"The Longest Common Substring is '{result_str}' with length {max_lcp_length}") ``` 这种方法不仅直观而且易于理解,但在实际应用中可能不是最高效的解决方案。更先进的技术如后缀数组或后缀自动机可能会提供更好的性能表现[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值