字典树选讲
又称单词查找树,
Trie树
,是一种
树形结构
,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的
字符
串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比
哈希
树高。
字典树的基本性质:
字典树是将要查找目标按字符加入树中,每一条到树根的路径表示一个对象,每一个节点的子节点均不同。
字典树的基本操作:
和线段树类似字典树的基本操作有查找、插入、删除(删除操作不常见但是这次在长春赛区的比赛出现了);
一.建树:
const int MAXNODE= ;
const int MAXN= ;
int num=0;
struct Trie
{
int v,ch[MAXNODE];
}tree[MAXN];
这里的MAXNODE指的是目标对象有几个特征字符类型,比如十进制的MAXNODE是10,字母字符串的MAXNODE是26;
这里的MAXN一般是最大数据量乘以最大数据长度;
tree[x].ch[y]标识的是和编号为x的树连接的下一个是字符ch[y]的树枝的编号;
tree[x].v表示的是这里到树根是否表示一个字符串,查找的时候一般就是一这个为标准。
num表示树枝标号;
二、插入(这里以只有字母的字符串为例):
void insert(char *s)
{
int u=0,len=strlen(s);
for(int i=0;i<len;i++)
{
int c=s[i]-'a';
if(tree[u].ch[c]==NULL)
tree[u].ch[c]=num++;
u=tree[u].ch[c];
}
node[u].v=1;
}
用c来表示这一位的字符类型,tree[u].ch[c]==NULL是表示这条树枝之前没出现过因此建立一个新的树枝,然后跳转到对印的树枝进行操作,并在最后将最后一位对应的v标记。
三、查找:
int find(char *s)
{
int u=0,len=strlen(s);
for(int i=0;i<len;i++)
{
int c=s[i]-'a';
u=tree[u].ch[c];
if(tree[u].v==1)
return true;
}
return false;
}
这条代码是拿来判断s是否是树中字符串的前缀。
四、删除:
int delete(char *s)
{
int u=0,len=strlen(s);
for(int i=0;i<len;i++)
{
int c=s[i]-'a';
u=tree[u].ch[c];
tree[u].ch[c]=0;
}
tree[u].v=0;
}
删除本质就是去掉字典树的链表属性并将最后的标记去掉就好了。
综上,字典树简单介绍完毕!