字典树主要用于大量具有相同前缀的字符串存储与检索。字符串的前缀匹配
字典树数据结构:
对于每一个节点,都有一个叶子节点数组,如果字符串都是小写字母,一般叶子节点数组为26,利用字符的索引来快速定位叶子节点数组位置。常见的基本操作 插入 查找 前缀查找:
插入:每遍历字符串中的一个字母,若该字母没有出现过,则就在对应的空位置往下生成一个 TrieTrie;若该字母出现过,则直接继续遍历下一个字母,直到字符串遍历结束(注意:结束时要标记为 endend,表示这个单词已经结束了)。
查找:遍历要参数中要查找的字符串 wordword,若还未遍历到 endend,在某字符处出现了 nullnull,则直接返回 falsefalse,因为该字符是第一次出现,则一定不会存在这个要查找的单词 wordword。否则,一直遍历到查找字符串 wordword 的末尾,若当前这个位置的 isEnd == true,表示在前缀树中找到了该单词 word;否则,没有这个单词。
前缀匹配:遍历需要前缀匹配的字符串 prefixprefix,只要有在某字母的位置出现了 nullnull,则直接返回 falsefalse(因为,该字母是第一次出现在前缀树中);否则,直到 prefixprefix 全部遍历完成后都没有返回 falsefalse 的话,则表示当前字典树中有该前缀字符串,返回 truetrue 即可。
1.实现前缀树
https://leetcode-cn.com/problems/implement-trie-prefix-tree/
Trie(发音类似 "try")或者说 前缀树 是一种树形数据结构,用于高效地存储和检索字符串数据集中的键。这一数据结构有相当多的应用情景,例如自动补完和拼写检查。
请你实现 Trie 类:
Trie() 初始化前缀树对象。
void insert(String word) 向前缀树中插入字符串 word 。
boolean search(String word) 如果字符串 word 在前缀树中,返回 true(即,在检索之前已经插入);否则,返回 false 。
boolean startsWith(String prefix) 如果之前已经插入的字符串 word 的前缀之一为 prefix ,返回 true ;否则,返回 false 。
public class Trie {
private Trie[] children;
// 是否叶子节点
private boolean isEnd;
public Trie() {
children = new Trie[26];
isEnd = false;
}
/**
* 从字典树的根开始,插入字符串。对于当前字符对应的子节点,有两种情况:
*
* 子节点存在。沿着指针移动到子节点,继续处理下一个字符。
* 子节点不存在。创建一个新的子节点,记录在 \textit{children}children 数组的对应位置上,
* 然后沿着指针移动到子节点,继续搜索下一个字符。
* 重复以上步骤,直到处理字符串的最后一个字符,然后将当前节点标记为字符串的结尾。
*
* */
public void insert(String word) {
Trie node = this;
for (int i = 0; i < word.length(); i++) {
char ch = word.charAt(i);
int index = ch - 'a';
if (node.children[index] == null) {
node.children[index] = new Trie();
}
node = node.children[index];
}
node.isEnd = true;
}
public boolean search(String word) {
Trie node = searchPrefix(word);
return node != null && node.isEnd;
}
public boolean startsWith(String prefix) {
return searchPrefix(prefix) != null;
}
/**
* 从字典树的根开始,查找前缀。对于当前字符对应的子节点,有两种情况:
*
* 子节点存在。沿着指针移动到子节点,继续搜索下一个字符。
* 子节点不存在。说明字典树中不包含该前缀,返回空指针。
* 重复以上步骤,直到返回空指针或搜索完前缀的最后一个字符。
*
* */
private Trie searchPrefix(String prefix) {
Trie node = this;
for (int i = 0; i < prefix.length(); i++) {
char ch = prefix.charAt(i);
int index = ch - 'a';
if (node.children[index] == null) {
return null;
}
node = node.children[index];
}
return node;
}
}
2.单词替换
https://leetcode-cn.com/problems/replace-words/
在英语中,我们有一个叫做 词根(root)的概念,它可以跟着其他一些词组成另一个较长的单词——我们称这个词为 继承词(successor)。例如,词根an,跟随着单词 other(其他),可以形成新的单词 another(另一个)。
现在,给定一个由许多词根组成的词典和一个句子。你需要将句子中的所有继承词用词根替换掉。如果继承词有许多可以形成它的词根,则用最短的词根替换它。
你需要输出替换之后的句子。
实质是将词典构建字典树,遍历句子的每一个单词,在字典树中寻找最短前缀匹配来替换。
class TrieNode {
TrieNode[] children;
String word;
int count;
TrieNode() {
children = new TrieNode[26];
count = 0;
}
public TrieNode get(char c) {
int index = c - 'a';
if (children[index] == null) {
children[index] = new TrieNode();
count++;
}
return children[index];
}
}
/**
* 在英语中,我们有一个叫做 词根(root)的概念,它可以跟着其他一些词组成另一个较长的单词——我们称这个词为 继承词(successor)。
* 例如,词根an,跟随着单词 other(其他),可以形成新的单词 another(另一个)。
* 现在,给定一个由许多词根组成的词典和一个句子。你需要将句子中的所有继承词用词根替换掉。
* 如果继承词有许多可以形成它的词根,则用最短的词根替换它。
* 你需要输出替换之后的句子。
* */
public String replaceWords(List<String> roots, String sentence) {
TrieNode trie = new TrieNode();
// 构建字典树
for (String root: roots) {
TrieNode cur = trie;
for (int j=0; j<root.length(); j++) {
cur = cur.get(root.charAt(j));
}
// 保存该单词所在的字典树节点
cur.word = root;
}
StringBuilder ans = new StringBuilder();
for (String word: sentence.split("\\s+")) {
if (ans.length() > 0) ans.append(" ");
TrieNode cur = trie;
// 判断当前单词是否在字典树中有前缀匹配
for (char letter: word.toCharArray()) {
if (cur.children[letter - 'a'] == null
|| cur.word != null) {
break;
}
cur = cur.children[letter - 'a'];
}
ans.append(cur.word != null ? cur.word : word);
}
return ans.toString();
}