字符串 之字典树 算法

字典树(trie树)简介

Trie树|字典树的简介Trie,又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串,其核心思想是空间换时间。它的优点是:利用字符串的公共前缀来节约存储空间。相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点.

其基本性质可以归纳为:
1. 根节点不包含字符,除根节点外每一个节点都只包含一个字符。
2. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
3. 每个节点的所有子节点包含的字符都不相同。

其基本操作有:查找 插入和删除,当然删除操作比较少见.我在这里只是实现了对整个树的删除操作,至于单个word的删除操作也很简单.

搜索字典项目的方法为:

(1) 从根结点开始一次搜索;

(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;

(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。(4) 迭代过程……(5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
其他操作类似处理.

举个简单的例子。

给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过,如果出现了,第一次出现第几个位置。
这题当然可以用hash来,但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词,我要询问它的前缀是否出现过。这样hash就不好搞了,而用trie还是很简单。
现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd,那么在他前面的单词中,以b,c,d,f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的,在以a开头中的单词中,我们只要考虑以b作为第二个字母的……这样一个树的模型就渐渐清晰了……
假设有b,abc,abd,bcd,abcd,efg,hii这6个单词,我们构建的树就是这样的

字符串 <wbr>之字典树 <wbr>算法

对于每一个节点,从根遍历到他的过程就是一个单词,如果这个节点被标记为红色,就表示这个单词存在,否则不存在。
那么,对于一个单词,我只要顺着他从跟走到对应的节点,再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色,就相当于插入了这个单词。
这样一来我们询问和插入可以一起完成,所用时间仅仅为单词长度,在这一个样例,便是10。
我们可以看到,trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表,或者用数组来模拟动态。空间的花费,不会超过单词数×单词长度。

 

c 代码

//=+
#include "stdio.h"    

#include "string.h"    

#include "stdlib.h"    

  

struct dictree    

   

    struct dictree *child[26];    
    bool isWord=false;
    int n;    // 统计一组字符串中某前缀出现的次数

};   //结点结构,有26个子节点 

struct dictree *root;    
void insert (char *source)    
  
    int len,i,j;    
    struct dictree *current,*newnode;    
    len=strlen(source);    
    if(len==0) return;    
    current=root;    
    for(i=0;i<len;i++)    
      
        if(current->child[source[i]-'a']!=0)    
        //插入字符 已经存在
            current=current->child[source[i]-'a']; 
            current->n=current->n+1;  
       
        else   
           //不存在 新建 节点加入 字典树中
            newnode=(struct dictree *)malloc(sizeof(struct dictree));    
            for(j=0;j<26;j++) newnode->child[j]=0;    
            current->child[source[i]-'a']=newnode;    
            current=newnode; 
            current->n=1;     
             
     
    current->isWord=true;//标识 单词的最后一个 字母为 单词结尾
   
int find(char *source)    
   
    int i,len;    
    struct dictree *current;   
    len=strlen(source); 
    if(len==0) return 0;    
    current=root;    
    for(i=0;i<len;i++)    
      
        if(current->child[source[i]-'a']!=0) //查找该字母是否在字典树中
            current=current->child[source[i]-'a'];    
        else return 0;    
      
    return current->n;//返回 所查找的前缀在 输入的一组字符串中出现的次数
    / bool 返回值判断 给定 的单词是否在之前输入的词库
    if(len==0) return false;    
    current=root;    
    for(i=0;i<len;i++)    
      
        if(current->child[source[i]-'a']!=0)    
            current=current->child[source[i]-'a'];    
        else return false;    
      
    return current->isWord;  
    
   

int main() 

    char temp[11]; 

    int i,j; 

    root=(struct dictree *)malloc(sizeof(struct dictree));    

    for(i=0;i<26;i++)    

        root->child[i]=0;    

    root->n=1000;  

    while(gets(temp),strcmp(temp,"")!=0) 

        insert(temp); 

    while(scanf("%s",temp)!=EOF) 

   

        i=find(temp); 

        printf("%d\n",i); 

   

}

字典树的典型应用:

1.统计一组字符串中某前缀出现的次数(直接用上面的代码就行)。

2.判断一组字符串中是否有一个字符串是另一个字符串的前缀。

    分析:我们只要在结点中添加一个nEndFlag成员变量即可。若nEndFlag == 1,说明该结点字符是某一字符串的结尾(假设为A),若在插入B字符串的过程中经过这一结点,则说明A是B的    前缀;还有一种情况,当要插入最后一个字符c时,却发现p->next[c-'a']为真,则说明该字符串是一个前缀字符串,eg:先插入abcde,再插入abc这种情况。

3. 串排序:给定N个互不相同的仅由一个单词构成的英文名,让你将他们按字典序从小到大输出

用字典树进行排序,采用数组的方式创建字典树,这棵树的每个结点的所有儿子很显然地按照其字母大小排序。对这棵树进行先序遍历即可。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值