Trie树：应用于统计和排序

最新推荐文章于 2021-05-17 06:45:36 发布

转载最新推荐文章于 2021-05-17 06:45:36 发布 · 597 阅读

文章标签：

#C++

C/C++ 同时被 3 个专栏收录

97 篇文章

订阅专栏

leetcode解题报告

96 篇文章

订阅专栏

算法

22 篇文章

订阅专栏

本文介绍了Trie树的基本概念、实现方法及其应用场景。Trie树是一种用于快速检索的多叉树结构，特别适用于字符串检索和排序任务。文章还详细讨论了Trie树的插入和查找过程。

1. 什么是trie树

1.Trie树（特例结构树）

Trie树，又称单词查找树、字典树，是一种树形结构，是一种哈希树的变种，是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。

Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。

Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点。

和二叉查找树不同，在trie树中，每个结点上并非存储一个元素。
trie树把要查找的关键词看作一个字符序列。并根据构成关键词字符的先后顺序构造用于检索的树结构。
在trie树上进行检索类似于查阅英语词典。

一棵m度的trie树或者为空，或者由m棵m度的trie树构成。

再举一个例子。给出一组单词，inn, int, at, age, adv, ant, 我们可以得到下面的Trie：

可以看出：

每条边对应一个字母。
每个节点对应一项前缀。叶节点对应最长前缀，即单词本身。
单词inn与单词int有共同的前缀“in”, 因此他们共享左边的一条分支，root->i->in。同理，ate, age, adv, 和ant共享前缀"a"，所以他们共享从根节点到节点"a"的边。

查询操纵非常简单。比如要查找int，顺着路径i -> in -> int就找到了。

2. trie树的实现

1．插入过程

对于一个单词，从根开始，沿着单词的各个字母所对应的树中的节点分支向下走，直到单词遍历完，将最后的节点标记为红色，表示该单词已插入trie树。

2. 查找过程

其方法为：

(1) 从根结点开始一次搜索；

(2) 取得要查找关键词的第一个字母，并根据该字母选择对应的子树并转到该子树继续进行检索；

(3) 在相应的子树上，取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。

(4) 迭代过程……

(5) 在某个结点处，关键词的所有字母已被取出，则读取附在该结点上的信息，即完成查找。其他操作类似处理。

class TrieNode {
public:
    // Initialize your data structure here.
    TrieNode(bool flag = false) {
        memset(nexts,0,sizeof(nexts));
        is_word = flag;
    }
    TrieNode *nexts[26];
    // string word;
    bool is_word;
};

class Trie {
public:
    Trie() {
        root = new TrieNode();
    }

    // Inserts a word into the trie.
    void insert(string word) {
        TrieNode *work = root;
        for(int i = 0; i < word.size(); i++){
            int c = 0;
            if(word[i] >= 'A' && word[i] <= 'Z'){
                c = word[i] - 'A';
            }else if(word[i] >= 'a' && word[i] <= 'z'){
                c = word[i] - 'a';
            }else{
                return;
            }
            if(work->nexts[c] == NULL){
                work->nexts[c] = new TrieNode();
            }
            work = work->nexts[c];
            //if(work == NULL) work = new TrieNode();
        }
        work->is_word = true;
    }

    // Returns if the word is in the trie.
    bool search(string word) {
        TrieNode *work = find(word);
        if(work != NULL && work->is_word)
            return true;
        else
            return false;
    }

    // Returns if there is any word in the trie
    // that starts with the given prefix.
    bool startsWith(string prefix) {
        TrieNode *work = find(prefix);
        return work != NULL;
    }
    
    
    TrieNode *find(string word){
        int len = word.size();
        int index = 0;
        TrieNode *work = root;
        while(work && index < len){
            int c = 0;
            if(word[index] >= 'A' && word[index] <= 'Z'){
                c = word[index] - 'A';
            }else if(word[index] >= 'a' && word[index] <= 'z'){
                c = word[index] - 'a';
            }
            index++;
            work = work->nexts[c];
        }
        return work;
    }

private:
    TrieNode* root;
};

// Your Trie object will be instantiated and called as such:
// Trie trie;
// trie.insert("somestring");
// trie.search("key");

3. 查找分析

在trie树中查找一个关键字的时间和树中包含的结点数无关，而取决于组成关键字的字符数。而二叉查找树的查找时间和树中的结点数有关O(log2n)。

如果要查找的关键字可以分解成字符序列且不是很长，利用trie树查找速度优于二叉查找树。如：
若关键字长度最大是5，则利用trie树，利用5次比较可以从26^5＝11881376个可能的关键字中检索出指定的关键字。而利用二叉查找树至少要进行

次比较。

3. trie树的应用：

1. 字符串检索，词频统计，搜索引擎的热门查询

事先将已知的一些字符串（字典）的有关信息保存到trie树里，查找另外一些未知字符串是否出现过或者出现频率。

举例：

1）有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

2）给出N 个单词组成的熟词表，以及一篇全用小写英文书写的文章，请你按最早出现的顺序写出所有不在熟词表中的生词。

3）给出一个词典，其中的单词为不良单词。单词均为小写字母。再给出一段文本，文本的每一行也由小写字母构成。判断文本中是否含有任何不良单词。例如，若rob是不良单词，那么文本problem含有不良单词。

4）1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串

5）寻找热门查询：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。