Trie树及应用

最新推荐文章于 2025-04-16 01:10:43 发布

原创最新推荐文章于 2025-04-16 01:10:43 发布 · 547 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#c++ #二叉树 #递归 #栈 #遍历

数据结构专栏收录该内容

19 篇文章

订阅专栏

1、字典树（Trie）可以保存一些字符串->值的对应关系。它跟 Java 的 HashMap 功能相同，都是 key-value 映射，只不过 Trie 的 key 只能是字符串。

Trie 的强大之处就在于它的时间复杂度。它的插入和查询时间复杂度都为 O(k) ，其中 k 为 key 的长度，与 Trie 中保存了多少个元素无关。Hash 表号称是 O(1) 的，但在计算 hash 的时候就肯定会是 O(k) ，而且还有碰撞之类的问题；Trie 的缺点是空间消耗很高。至于Trie树的实现，可以用数组，也可以用指针动态分配。

2、Trie树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。

3、Trie树的基本性质可以归纳为：
（1）根节点不包含字符，除根节点意外每个节点只包含一个字符。
（2）从根节点到某一个节点，路径上经过的字符连接起来，为该节点对应的字符串。

（3）每个节点的所有子节点包含的字符串不相同。

4、Trie树有一些特性：
1）根节点不包含字符，除根节点外每一个节点都只包含一个字符。
2）从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。
3）每个节点的所有子节点包含的字符都不相同。
4）如果字符的种数为n，则每个结点的出度为n，这也是空间换时间的体现，浪费了很多的空间。
5）插入查找的复杂度为O(n)，n为字符串长度。

5、基本思想（以字母树为例）：
1）插入过程
对于一个单词，从根开始，沿着单词的各个字母所对应的树中的节点分支向下走，直到单词遍历完，将最后的节点标记为红色，表示该单词已插入Trie树。
2）查询过程
同样的，从根开始按照单词的字母顺序向下遍历trie树，一旦发现某个节点标记不存在或者单词遍历完成而最后的节点未标记为红色，则表示该单词不存在，若最后的节点标记为红色，表示该单词存在。

6、Trie树的操作

插入、查找和删除。一般情况下Trie树中很少存在删除单独某个结点的情况，因此只考虑删除整棵树。

1、插入
假设存在字符串str，Trie树的根结点为root。i=0，p=root。
1）取str[i]，判断p->next[str[i]-97]是否为空，若为空，则建立结点temp，并将p->next[str[i]-97]指向temp，然后p指向temp；若不为空，则p=p->next[str[i]-97]；

2）i++，继续取str[i]，循环1)中的操作，直到遇到结束符'\0'，此时将当前结点p中的 exist置为true。

2、查找
假设要查找的字符串为str，Trie树的根结点为root，i=0，p=root
1）取str[i]，判断判断p->next[str[i]-97]是否为空，若为空，则返回false；若不为空，则p=p->next[str[i]-97]，继续取字符。

2）重复1)中的操作直到遇到结束符'\0'，若当前结点p不为空并且 exist 为true，则返回true，否则返回false。

3、删除

删除可以以递归的形式进行删除。前缀查询的典型应用：

#include<iostream>  
#include<cstring>  
using namespace std;  
  
typedef struct Trie_node  
{  
    int count;                    // 统计单词前缀出现的次数  
    struct Trie_node* next[26];   // 指向各个子树的指针  
    bool exist;                   // 标记该结点处是否构成单词    
}TrieNode , *Trie;  
  
TrieNode* createTrieNode()  
{  
    TrieNode* node = (TrieNode *)malloc(sizeof(TrieNode));  
    node->count = 0;  
    node->exist = false;  
    memset(node->next , 0 , sizeof(node->next));    // 初始化为空指针  
    return node;  
}  
  
void Trie_insert(Trie root, char* word)  
{  
    Trie node = root;  
    char *p = word;  
    int id;  
    while( *p )  
    {  
        id = *p - 'a';  
        if(node->next[id] == NULL)  
        {  
            node->next[id] = createTrieNode();  
        }  
        node = node->next[id];  // 每插入一步，相当于有一个新串经过，指针向下移动  
        ++p;  
        node->count += 1;      // 这行代码用于统计每个单词前缀出现的次数（也包括统计每个单词出现的次数）  
    }  
    node->exist = true;        // 单词结束的地方标记此处可以构成一个单词  
}  
  
int Trie_search(Trie root, char* word)  
{  
    Trie node = root;  
    char *p = word;  
    int id;  
    while( *p )  
    {  
        id = *p - 'a';  
        node = node->next[id];  
        ++p;  
        if(node == NULL)  
            return 0;  
    }  
    return node->count;  
}  
  
int main(void)  
{  
    Trie root = createTrieNode();     // 初始化字典树的根节点  
    char str[12] ;  
    bool flag = false;  
    while(gets(str))  
    {  
        if(flag)  
            printf("%d\n",Trie_search(root , str));  
        else  
        {  
            if(strlen(str) != 0)  
            {  
                Trie_insert(root , str);  
            }  
            else  
                flag = true;  
        }  
    }  
  
    return 0;  
}

4、字典树的查找

#include<iostream>  
#include<cstring>  
using namespace std;  
  
typedef struct Trie_node  
{  
    int count;                    // 统计单词前缀出现的次数  
    struct Trie_node* next[26];   // 指向各个子树的指针  
    bool exist;                   // 标记该结点处是否构成单词    
    char trans[11];               // 翻译  
}TrieNode , *Trie;  
  
TrieNode* createTrieNode()  
{  
    TrieNode* node = (TrieNode *)malloc(sizeof(TrieNode));  
    node->count = 0;  
    node->exist = false;  
    memset(node->next , 0 , sizeof(node->next));    // 初始化为空指针  
    return node;  
}  
  
void Trie_insert(Trie root, char* word , char* trans)  
{  
    Trie node = root;  
    char *p = word;  
    int id;  
    while( *p )  
    {  
        id = *p - 'a';  
        if(node->next[id] == NULL)  
        {  
            node->next[id] = createTrieNode();  
        }  
        node = node->next[id];  // 每插入一步，相当于有一个新串经过，指针向下移动  
        ++p;  
        node->count += 1;      // 这行代码用于统计每个单词前缀出现的次数（也包括统计每个单词出现的次数）  
    }  
    node->exist = true;        // 单词结束的地方标记此处可以构成一个单词  
    strcpy(node->trans , trans);  
}  
  
char* Trie_search(Trie root, char* word)  
{  
    Trie node = root;  
    char *p = word;  
    int id;  
    while( *p )  
    {  
        id = *p - 'a';  
        node = node->next[id];  
        ++p;  
        if(node == NULL)  
            return 0;  
    }  
    if(node->exist)          // 查找成功  
        return node->trans;  
    else                     // 查找失败  
        return NULL;  
}  
  
int main(void)  
{  
    Trie root = createTrieNode();     // 初始化字典树的根节点  
    char str1[3003] , str2[3003] , str[3003] , *p;  
    int i , k;  
  
    scanf("%s",str1);  
    while(scanf("%s",str1) && strcmp(str1 , "END") != 0)  
    {  
        scanf("%s",str2);  
        Trie_insert(root , str2 , str1);  
    }  
  
    getchar();  
    gets(str1);  
    k = 0;  
    while(gets(str1))  
    {  
        if(strcmp(str1 , "END") == 0)  
            break;  
        for(i = 0 ; str1[i] != '\0' ; ++i)  
        {  
            if(str1[i] >= 'a' && str1[i] <= 'z')  
            {  
                str[k++] = str1[i];  
            }  
            else  
            {  
                str[k] = '\0';  
                p = Trie_search(root , str);  
                if(p)  
                    printf("%s", p);  
                else  
                    printf("%s", str);  
                k = 0;  
                printf("%c", str1[i]);  
            }  
        }  
        printf("\n");  
    }  
  
    return 0;  
}