字典树
一、概念
字典树 (Trie) 是一种用于实现字符串快速存储和检索的多叉树结构;
Trie 的每个节点都拥有若干个字符指针,若在插入或检索字符串时扫描到一个字符 ccc ,就沿着当前节点的 ccc 字符指针,走向该指针指向的节;
即 Trie 中的每一条边都表示一个字符,用点将这些字符连起来;
如图所示,
即 Trie 中,字符数据都体现在树的边上,树的节点仅保存一些额外信息,如字符串结尾标记等;
空间复杂度是 O(N∗C)O(N*C)O(N∗C) ,其中 NNN 为节点个数,CCC 为字符集的大小;
时间复杂度是 O(T∗len)O(T*len)O(T∗len) ,其中 TTT 为串的个数,lenlenlen 为串的长度;
二、操作
1. 初始化
一棵空的 Trie 仅包含一个根节点,该节点的字符指针均直向空;
int trie[MAXN][MAXX], tot = 1; // trie,节点编号
bool end[MAXN]; // 末尾标记
关于 MAXN
的大小,
- 若已知所有插入字符串长度之和,那么
MAXN
就是这个总长度; - 若未知,则计算节点个数,由于深度为 kkk 的满二叉树的节点个数为 2k−12^{k} - 12k−1 ,那么深度为 kkk 的满三叉树的节点个数为 3k−12\frac{3^{k} - 1}{2}23k−1 ,则深度为 kkk 的满 nnn 叉树的节点个数为 nk−1n−1\frac{n^{k} - 1}{n - 1}n−1nk−1 ,则如果 Trie 中存小写字母,那最大就是一棵满 26 叉树,而 kkk 为最长串的长度;
关于 MAXX
的大小根据 Trie 存储的内容判断,若存储小写字母,则开 26
即可;
2. 插入
插入一个字符串 sss 时,令一个指针 ppp 初始时指向根节点,然后依次扫描 sss 中的每一个字母 ccc ;
- 若 ppp 的 ccc 字符指针指向一个已经存在的节点 qqq ,则令 p=qp = qp=q ,将 ppp 指针继续传递;
- 若 ppp 的 ccc 字符指针指向空节点,则新建一个节点 qqq ,令 ppp 的 ccc 字符节点指向 qqq ,然后令 p=qp = qp=q ,将 ppp 指针继续传递;
当 sss 中的字符扫描完毕时,在当前节点 ppp 上标记其是一个字符串的末尾,以免出现因存在后缀单词而无法检索的情况;
代码如下,
void insert1(char *str) { // 传入字符串
int len = strlen(str), p = 1; // 定义指针 p 最初指初始节点
for (int i = 0; i < len; i++) {
int ch = str[i] - 'a'; // 当前字符指针
if (trie[p][ch] == 0) trie[p][ch] = ++tot; // 创建新节点
p = trie[p][ch]; // 指向下一个节点
}
end[p] = true; // 标记结尾标记
return;
}
3. 检索
检索一个字符串 sss 在 Trie 中是否存在时,令一个指针 ppp 初始时指向根节点,然后依次遍历 sss 中的每个字符 ccc ;
- 若 ppp 的 ccc 字符指针指向空,则说明 sss 没有被插入过 Trie 中,结束检索;
- 若 ppp 的 ccc 字符指针指向一个已经存在的节点 qqq ,则令 p=qp = qp=q ,将 ppp 指针继续传递;
当 sss 中的字符扫描完毕后,
-
若当前节点 ppp 被标记为一个字符串的末尾,则说明 sss 在Trie中存在;
-
若没有被标记,则说明 sss 没有被插入过 Trie,只是为已插入过的单词的前缀;
bool search(char *str) { // 传入字符串
int len = strlen(str), p = 1; // 定义指针 p 最初指初始节点
for (int i = 0; i < len; i++) {
p = trie[p][str[i] - 'a']; // 指向下一个节点
if (p == 0) return false; // 判断指针是否指向空
}
return end[p]; // 判断是否标记末尾
}
三、例题
1. 前缀统计
题目
给定 NNN 个字符串 S1,S2...SNS1,S2...SNS1,S2...SN ,接下来进行 MMM 次询问,每次询问给定一个字符串 TTT ,求 S1~SNS1~SNS1~SN 中有多少个字符串是T的前缀;
输入字符串的总长度不超过10^6,仅包含小写字母;
分析
把这 nnn 个字符串插入一棵 Trie 树中,Trie 树的每个节点上存储一个整数 cntcntcnt ,记录该节点是多少个字符串的末尾节点;
对于每个询问,在 Trie 树中检索 TTT ,在检索过程中累加途径中的每个节点的 cntcntcnt 值,就是该询问的答案;
代码
#include <cstdio>
#include <cstring>
#include <algorithm>
#define MAXN 1000005
using namespace std;
int n, m;
int trie[MAXN][35], tot = 1, cnt[MAXN];
void insert1(char *str) {
int len = strlen(str), p = 1;
for (int i = 0; i < len; i++) {
int ch = str[i] - 'a';
if (trie[p][ch] == 0) trie[p][ch] = ++tot;
p = trie[p][ch];
}
cnt[p]++; // 存储以给节点为末尾的字符串数量
return;
}
int search(char *str) {
int len = strlen(str), p = 1, ans = 0;
for (int i = 0; i < len; i++) {
p = trie[p][str[i] - 'a'];
if (p == 0) return ans;
ans += cnt[p]; // 将以该节点为末尾的字符串数量累加
}
return ans;
}
int main() {
scanf("%d %d", &n, &m);
for (int i = 1; i <= n; i++) {
char s[MAXN];
scanf("%s", s);
insert1(s);
}
for (int i = 1; i <= m; i++) {
char s[MAXN];
scanf("%s", s);
printf("%d\n", search(s));
}
return 0;
}
2. The XOR Largest Pair
题目
在给定的 NNN 个整数 A1,A2,...,ANA_1, A_2, ... , A_NA1,A2,...,AN 中选出两个进行异或运算,得到的结果最大是多少?
分析
由于求异或值,可以把每个整数看作长度为 32 位的 01 串(不足32位时补前导0);
把 A1,...,ANA_1, ..., A_NA1,...,AN 对应的 32 位二进制插入一棵 Trie 树中(其中最低二进制位为叶子节点);
接下来,对于 AiA_iAi 对应的 32 位二进制串,在 Trie 树中进行一次检索的过程;
每一步都尝试沿着与 AiA_iAi 的当前位相反的字符指针向下访问;
若与 AiA_iAi 的当前位相反的字符指针指向空节点,则访问与 AiA_iAi 的当前位相同的字符指针延续路径,继续向下走;
根据异或运算的性质,即可找出与 AiA_iAi 做异或运算结果最大的 A1∼Ai−1A1 \sim Ai-1A1∼Ai−1 ;
可以在每次检索完成后更新 ans
,再把当前 AiA_iAi 插入 Trie 树中,继续遍历;
代码
#include <cstdio>
#include <cstring>
#include <algorithm>
#define MAXX 3100005
#define MAXN 100005
using namespace std;
int n, a[MAXN], ans = -1;
int trie[MAXX][5], tot = 1;
void insert1(int x) {
int p = 1;
for (int i = 30; i >= 0; i--) {
int h = (x >> i) & 1;
if (trie[p][h] == 0) trie[p][h] = ++tot;
p = trie[p][h];
}
return;
}
int search(int x) {
int p = 1, ans = 0;
for (int i = 30; i >= 0; i--) {
int h = (x >> i) & 1;
if (trie[p][!h]) {
p = trie[p][!h];
ans = ans * 2 + 1;
} else {
p = trie[p][h];
ans = ans * 2;
}
}
return ans;
}
int main() {
scanf("%d", &n);
for (int i = 1; i <= n; i++) {
scanf("%d", &a[i]);
insert1(a[i]);
}
for (int i = 1; i <= n; i++) {
ans = max(ans, search(a[i]));
}
printf("%d\n", ans);
return 0;
}