是否了解字典树?
| 数据结构 | 优缺点 |
|---|---|
| Array/List | 使用二分法查找,不平衡 |
| HashMap/TreeMap | 性能高,内存消耗大,几乎是原始数据的三倍 |
| Skip List | 跳跃表,可快速查找词语,在lucene,redis,HBase中有实现 |
| Trie | 适合英文词典,如果系统中存在大量字符串且这些字符串基本没有公共前缀 |
| Double Array Trie | 适合做中文词典,内存占用小,很多分词工具军采用此种算法 |
| Ternary Search Tree | 一种有状态的转移机,Lucene 4有开源实现,并大量使用 |
Trie 的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以
达到提高效率的目的。它有 3 个基本性质:
1、根节点不包含字符,除根节点外每一个节点都只包含一个字符。
2、从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
3、每个节点的所有子节点包含的字符都不相同。

1、可以看到,trie 树每一层的节点数是 26^i 级别的。所以为了节省空间,我们
还可以用动态链表,或者用数组来模拟动态。而空间的花费,不会超过单词数×单
词长度。
2、实现:对每个结点开一个字母集大小的数组,每个结点挂一个链表,使用左儿子右兄弟表示法记录这棵树;
3、对于中文的字典树,每个节点的子节点用一个哈希表存储,这样就不用浪费太大的空间,而且查询速度上可以保留哈希的复杂度 O(1)。
本文详细介绍了字典树(Trie)的数据结构,包括其优势、适用场景和不同实现方式,如动态链表和数组模拟。特别提到了在中文词典中的应用,如DoubleArrayTrie,以及在Lucene、Redis和HBase中的实现。字典树通过空间换取时间,利用字符串公共前缀减少查询时间,是处理大量字符串查询的理想选择。
8420

被折叠的 条评论
为什么被折叠?



