双数组Trie树 (Double-array Trie) 及其应用

浅唱书令

已于 2023-06-01 14:18:14 修改

阅读量424

点赞数

CC 4.0 BY-SA版权

分类专栏：数据结构与算法文章标签：算法 java 开发语言

于 2017-01-09 14:49:00 首次发布

本文链接：https://blog.youkuaiyun.com/keyboardlabourer/article/details/130980564

数据结构与算法专栏收录该内容

57 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

双数组Trie树(DAT)是一种高效的Trie树实现，结合了数组的快速查询和链表的空间节省。本文介绍了DAT的基本概念、Java实现，以及在词典构建和分词中的应用，特别提到了Ansj库中的DAT应用和前向最大匹配分词算法。

双数组Trie树(Double-array Trie, DAT)是由三个日本人提出的一种Trie树的高效实现 [1]，兼顾了查询效率与空间存储。Ansj便是用DAT(虽然作者宣称是三数组Trie树，但本质上还是DAT)构造词典用作初次分词，极大地节省了内存占用。本文将简要地介绍DAT，并实现了基于DAT的前向最大匹配的中文分词算法。

1. Trie树

两种实现

Trie树(也称为字典树、前缀树)是一种常被用于词检索的树结构，其思想非常简单：利用词的共同前缀以达到节省空间的目的；基本的实现有array与linked-list两种。array实现需要为每一个字符开辟一个字母表大小的数组：

上图给出四个单词bachelor, baby, badge, jar的Trie树array实现示例图；对应的Java代码如下：

class TrieNode {
  public Character value;
  public TrieNode[] next = new TrieNode[65536]; // 65536 = 2^16
}

虽然，array的查询时间复杂度为\(O(1)\)；但是，从图中可以看出，存在着大量的空间浪费。当然，有人会想到用Hash

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浅唱书令

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

Double-Array详解

joylnwang的专栏

09-28

9872

Trie结构是模式匹配中经常用到的经典结构，在字符串处理中发挥着重要的作用，比如分词算法，就会利用Trie结构将分句的已知词条先识别出来，然后再判断剩下的未识别部分是否是新的未知词。经典的Trie结构如下图所示，是一个典型的多叉树结构，为了保证用Trie结构进行模

DoubleArrayTrie 的原理理解和实现

不想做咸鱼的咸鱼的专栏

12-15

1638

平时使用双数组字典树的场景蛮多的，但是一直没有明白它的构建过程，再次，通过各位大佬的文章，终于终结出自己理解的双数组字典树的构造过程。具体参考如下： https://blog.youkuaiyun.com/u013300579/article/details/78869742 https://blog.youkuaiyun.com/zhoubl668/article/details/6957830 https://gi...

参与评论您还未登录，请先登录后发表或查看评论

DoubleArrayTrie:双端trie树的python实现

04-29

DoubleArrayTrie 双端trie树的python实现版本翻译于将其改写成python3.5版本最主要的贡献是 —— 1：实现了其模糊查询的功能；2：自定义编码值，解决双端trie树需要预定义字母表的问题另外，有实现了字典Trie树，字典Trie树构建简单、模糊查找功能实现容易，无需状态记录；其与双数组Tire可以说在功能上互补；在存储值很多且多有冲突、字符编码范围较大的情况下，双数组Trie树很可能在序列化到硬盘以及加载到内存的占用空间都远大于字典Trie树

深入双数组Trie（Double-Array Trie）

最新发布

04-28

双数组Trie（Double-Array Trie）是一种高效的数据结构，主要用于处理大量字符串数据的存储与检索问题，特别适用于构建词典查询系统。与传统的Trie树相比，双数组Trie通过两个线性数组——base数组和check数组——来...

java数组-基于java实现的双数组Trie树.zip

03-14

双数组Trie树（Double Array Trie）是Trie树的一种优化实现，由日本的Hideo Bannai和Ichiro Hamana在1992年提出。它通过使用两个数组（一个用于表示字符位置，另一个用于表示子节点位置）来存储树的信息，从而节省...

DoubleArrayTrie(双数组Trie树)

10-22

**DoubleArrayTrie（双数组Trie树）详解** DoubleArrayTrie（简称DAT），是一种高效的数据结构，常用于字符串的查找和匹配，特别是在分词检索、数据挖掘以及搜索引擎等领域有着广泛的应用。它是由日本学者高津陵...

Double Array Trie

weixin_34239592的博客

05-24

464

Trie树主要应用在信息检索领域，非常高效。今天我们讲Double Array Trie，请先把Trie树忘掉，把信息检索忘掉，我们来讲一个确定有限自动机（deterministic finite automaton ，DFA）的故事。所谓“确定有限自动机”是指给定一个状态和一个变量时，它能跳转到的下一个状态也就确定下来了，同时状态是有限的。请注意这里出现两个名词，一个是“状态”，一个是“变量”，...

双数组 DoubleArray Trie树的数组实现 双数组字典

10-26

Trie树是搜索树的一种，来自英文单词"Retrieval"的简写，可以建立有效的数据检索组织结构，是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机（DFA），每个节点代表自动机的一个状态。在词典中这种状态包括＂词前缀＂，＂已成词＂等。 双数组Trie（Double-ArrayTrie）是trie树的一个简单而有效的实现，由两个整数数组构成，一个是base[]，另一个是check[]。设数组下标为i,如果base[i],check[i]均为0,表示该位置为空。如果base[i]为负值，表示该状态为词语。Check[i]表示该状态的前一状态，t=base[i]+a,check[t]=i

DoubleArrayTrie:高级结构双数组Trie树（DoubleArrayTrie） java实现

05-05

DoubleArrayTrie Java编写的DoubleArrayTrie 介绍用法 // construct and build DoubleArrayTrie dat = new DoubleArrayTrie(); for(String word: words) { dat.Insert(word); } System.out.println(dat.Base.length); System.out.println(dat.Tail.length); String word = sc.next(); // Look up a word System.out.println(dat.Exists(word)); // Find all words that begin with a string System.out.println(dat.Fi

Double Array Trie(一)

atarik@163.com

10-17

883

DoubleArrayTrie实现　　Tire树终究是一颗树形结构，树形结构的两个重要要素便是前驱和后继，把Tire树压缩到双数组中，只需要保持能查询到每个节点的前驱和后继即可。Tire树中几个重要的概念。 STATE：状态，实际为在数组中的下标 CODE ：状态转移值，实际为转移字符的 ASCII码, java中使用(int)(char c)和(char)(int i)互相转 BASE ...

双数组字典树DoubleArrayTrie

懒猫的脚印

01-26

1823

双数组Tire树

Double Array Trie介绍

weixin_41644391的博客

03-31

576

正统介绍请移步百度或其他博客。都比我讨论的好。 Trie和Double Array Trie（DAT）的比较。 Trie有两种数据结构： 1.数组或hash链式：介绍：兄弟节点使用数组或者hash存储，儿子节点使用指针存储。优点：1. 便于查找，能快速定位兄弟节点中是否有该值，然后跳到该值的儿子hash或者数组中查找。 ...

double-array trie 译文+心得

zzran的专栏

01-03

1万+

自己对树是情有独钟，故在元旦放假的时候，翻译了an efficient implementation of trie structures。作者及来源就不叙述了。英文水平有限，但是尽量还原此文章的灵魂。如果有什么不对的地方，敬请各位给予指点。（http://blog.youkuaiyun.com/zzran/article/details/8461985-源码）.学习的时候要有trie的基础。概论

双数组树过程理解(Double-arrayTrie)

天涯的博客

04-26

1311

目录简介双数组的定义双数组树的构建理解参考资料简介 双数组字典树由日本人Jun-Ichi Aoe在1989年提出，它由base和check两个数组组成，状态转移的复杂度为常数。这两个数组里面存在的内容为链接数组的下标，但是为了节约空间，在数据定义以及存储上各有千秋，除非看最原始的实现方式，否则各个博客中或者教程中的版本各有那么一点的不同，而本节就是其中的一种方式。 双数组的定义原始的双数组定义...

深入浅出双数组字典树Double-arrayTrie（附代码）

qq_51652222的博客

02-24

898

今天NLP课上学习了双数组字典树的知识，听懂了但没完全懂，故总结一下。

优化的双数组Trie树算法在中文信息处理中的应用

“双数组Trie树算法优化及其应用研究” 双数组Trie树（Double-Array Trie）是一种高效的数据结构，常用于字符串搜索和管理，特别是在中文信息处理中，如词典管理和分词等场景。它由两部分数组组成：一个用于记录...