Trie 字典树

为了方便您阅读源代码,您转自
http://blog.youkuaiyun.com/dskit/archive/2009/12/09/4973441.aspx
阅读。
资料来源:http://www.cppblog.com/abilitytao/archive/2009/04/21/80598.html
Trie,又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串。它的优点是:利用字符串的公共前缀来节约存储空间。
相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点.
其基本性质可以归纳为:
1.
根节点不包含字符,除根节点外每一个节点都只包含一个字符。
2.
从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
3.
每个节点的所有子节点包含的字符都不相同。
其基本操作有:查找 插入和删除,当然删除操作比较少见.我在这里只是实现了对整个树的删除操作,至于单个word的删除操作也很简单.
搜索字典项目的方法为:
(1) 从根结点开始一次搜索;
(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;
(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。
(4) 迭代过程……
(5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
其他操作类似处理.
/**//*
 
资料来源:http://blog.chinaunix.net/u2/65170/showart_1073487.html
 
Trie树就是字符树,其核心思想就是空间换时间。
举个简单的例子。
给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过,如果出现了,第一次出现第几个位置。
这题当然可以用hash来,但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词,我要询问它的前缀是否出现过。这样hash就不好搞了,而用trie还是很简单。
现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd,那么在他前面的单词中,以bcdf之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的,在以a开头中的单词中,我们只要考虑以b作为第二个字母的……这样一个树的模型就渐渐清晰了……
假设有babcabdbcdabcdefghii6个单词,我们构建的树就是这样的。


对于每一个节点,从根遍历到他的过程就是一个单词,如果这个节点被标记为红色,就表示这个单词存在,否则不存在。
那么,对于一个单词,我只要顺着他从跟走到对应的节点,再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色,就相当于插入了这个单词。
这样一来我们询问和插入可以一起完成,所用时间仅仅为单词长度,在这一个样例,便是10
我们可以看到,trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表,或者用数组来模拟动态。空间的花费,不会超过单词数×单词长度。
### 使用Trie字典树进行敏感词检测的实现方法 #### 背景介绍 Trie字典树是一种高效的树形数据结构,广泛应用于字符串处理领域。它通过共享公共前缀的方式减少了存储空间和查询时间,在敏感词检测场景下表现尤为突出[^1]。 #### 数据结构设计 Trie树的核心在于其节点的设计。每个节点通常包含以下几个部分: - **字符**:当前节点所代表的字符。 - **子节点集合**:指向下一个可能的字符节点。 - **结束标志位 (isEnd)**:用于标记某个路径是否构成了完整的敏感词[^2]。 以下是Trie节点的一个简单定义: ```java class TrieNode { private boolean isEnd; private Map<Character, TrieNode> children; public TrieNode() { this.children = new HashMap<>(); this.isEnd = false; } public boolean isEnd() { return isEnd; } public void setEnd(boolean end) { isEnd = end; } public Map<Character, TrieNode> getChildren() { return children; } } ``` #### 插入敏感词 为了构建一棵能够完成敏感词检测的Trie树,首先需要将所有的敏感词插入到树中。每插入一个新词时,按照字母顺序逐层创建节点并更新`isEnd`属性以标记完整词语的位置[^3]。 示例代码如下所示: ```java public class Trie { private final TrieNode root; public Trie() { root = new TrieNode(); } // 向Trie树中添加一个新的敏感词 public void addWord(String word) { TrieNode current = root; for (char c : word.toCharArray()) { if (!current.getChildren().containsKey(c)) { current.getChildren().put(c, new TrieNode()); } current = current.getChildren().get(c); } current.setEnd(true); // 设置最后一个节点为终止状态 } } ``` #### 进行敏感词过滤 当完成了所有敏感词的初始化之后,就可以基于这棵Trie树来进行实际的文字审查工作了。具体做法是从输入文本的第一位开始逐步向下匹配直到找到整个句子或者遇到未记录下来的分支为止[^2]。 下面给出了一段Java程序片段展示如何替换掉原文中的不当表述部分: ```java public String filter(String text) { StringBuilder sb = new StringBuilder(); int length = text.length(); for(int i=0;i<length;){ int j=i; TrieNode node=root; while(j<length && node!=null){ char ch=text.charAt(j); node=node.getChildren().get(ch); if(node==null || !node.isEnd()){ break; } if(node.isEnd()){ sb.append("***"); i=j+1; continue; } j++; } if(i>=j){ sb.append(text.charAt(i)); i++; }else{ i=j; } } return sb.toString(); } ``` 此函数会逐一扫描给定字符串里的每一项成分,并依据预先建立好的规则决定保留原样还是替换成指定符号序列(这里选用的是三个星号)。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值