使用aho-corasick-double-array-trie进行脏字过滤

最新推荐文章于 2024-08-22 12:01:53 发布

原创

最新推荐文章于 2024-08-22 12:01:53 发布 · 685 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#java #算法

这里要做的就是拿到敏感字文件里面的数据，然后对输入的数据进行过滤替换，这里使用了springboot和aho-corasick-double-array-trie库来进行过滤

aho-corasick-double-array-trie 是一个用于字符串匹配的库，它实现了 Aho-Corasick 双数组字典树算法。

Aho-Corasick 算法是一种高效的多模式字符串匹配算法，可以在一个主串中同时匹配多个模式串。该算法利用了字典树和有限状态自动机的思想。具体来说，它通过构建一个双数组字典树，将所有的模式串存储起来，并且在构建过程中建立了各个节点之间的失败指针，以便在匹配过程中进行跳转。

使用 Aho-Corasick 算法进行字符串匹配可以达到较高的效率。相比于传统的暴力匹配算法，Aho-Corasick 算法能够在线性时间内完成匹配操作，而不会因为模式串的数量增加而导致时间复杂度的大幅增加。

aho-corasick-double-array-trie 库的效果取决于所需匹配的模式串数量和主串长度。在模式串数量较少时，其匹配速度较快；而在模式串数量较多时，虽然构建字典树的时间会略有增加，但匹配速度仍然较高效。

这是我的资源敏感字文字的位置

- src
  - main
    - java
      - com.example
        - YourClass.java
    - resources
      - sensitiveText
        - a.txt
        - b.txt
        ...

需要导入依赖

   <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>aho-corasick-double-array-trie</artifactId

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

java_novice_qx

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Java Aho Corasick 自动机的使用

谈谈1974

12-24

1792

AC 自动机是一种用于字符串多模式匹配的算法，其算法实现的底层数据结构多为字典树，其中一种实现的具体信息读者可参考Aho Corasick 自动机结合 DoubleArrayTrie 极速多模式匹配。在实际开发中 AC 自动机常用于关键词识别提取的场景，以下是相关使用示例。

Algorithm-AhoCorasickDoubleArrayTrie.zip

09-17

Algorithm-AhoCorasickDoubleArrayTrie.zip,基于双数组trie的aho-corasick算法的快速实现。,算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。

1 条评论您还未登录，请先登录后发表或查看评论

AhoCorasickDoubleArrayTrie：基于Double Array Trie的Aho Corasick算法的极快实现

01-30

AhoCorasickDoubleArrayTrie 基于Double Array Trie结构的Aho Corasick算法的极快实现。它的速度是幼稚实现的5到9倍，也许是迄今为止最快的实现；-) 介绍您可能听说过Aho-Corasick算法可以快速解析带有巨大词典的文本，例如：在文本中寻找某些单词以链接或强调它们向纯文本添加语义检查字典以查看是否存在语法错误但是大多数实现使用TreeMap<Character>存储goto结构，这花费O(lg(t))时间， t是单词的公共前缀中最大的数量。最终复杂度为O(n * lg(t)) ，绝对t > 2 ，所以n * lg(t) > n 。其他人使用HashMap ，这浪费了太多内存，但仍然保持缓慢。我通过将XXXMap替换为Double Array Trie XXXMap进行了改进，该Trie的时间复杂度仅为O(1) ，因此我们得到的总复杂度为O(n) ，并在时间和内存之间取得了完美的平衡。是的，它的速度与字典单词的长度或语言或通用前缀无关。此实现已在我的软件包中广泛使用。我希望它可以作为处理文

AC自动机-2（AhoCorasickDoubleArrayTrie）

最新发布

xy2006860的专栏

08-22

747

AhoCorasickDoubleArrayTrie的构建可能会消耗大量内存，在实际使用中，可以先在一个大内存的机器上构建好AC DAT，序列化成文件，然后在使用的节点上直接反序列进行试用，正如 hanlp实现中的save和load方法。可以看到，其构建过程首先构造了一个普通的Trie树，然后基于这个普通Trie树构建了DAT，在构建DAT的过程中，也给先前构建好的普通Trie树添加了DAT的索引。, 最后又压缩了DAT了，loseWeight();，实际是一个为尾压缩的方法。

Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配

weixin_34082695的博客

06-13

411

为什么80%的码农都做不了架构师？>>> ...

ac自动机匹配最长前缀_Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配

weixin_39840616的博客

12-20

711

本文使用Double Array Trie实现了一个性能极高的Aho Corasick自动机，应用于分词可以取得1400万字每秒，约合27MB/s的分词速度。其中词典为150万词，构建耗时1801 ms。以前就在构想将AC自动机与双数组Trie树结合起来，考虑到持久化比较困难(goto和fail表是内存指针/引用)，一直没下决心实现，今天终于成功了。AC自动机能高速完成多模式匹配，然而具体实现聪明...

aho-corasick:Aho-Corasick算法的Java实现，可实现高效的字符串匹配

05-13

阿霍·科拉西克（Aho-Corasick）相依性在您的POM中包括此依赖项。确保在Maven Central中检查最新版本。 < groupId>org.ahocorasick < artifactId>ahocorasick < version>0.6.3 介绍大多数自由文本搜索都...

Aho-Corasick算法的Java实现与分析1

08-03

2. **Failure表（Failure链接）**：Failure表是Aho-Corasick算法的核心，它记录了当当前状态无法通过Goto表进行有效转移时，应该回退到哪个状态。这样，即使当前字符不匹配模式串中的下一个字符，算法也能快速恢复并...

java笔试题算法-aho-corasick:DannyYoo在Java中实现的Aho-Corasick算法，几乎没有改进

06-03

`系统开源`标签可能意味着`aho-corasick-master`这个压缩包包含了DannyYoo实现的Aho-Corasick算法的源代码，可以被开发者查看、学习和自由使用。开源项目通常遵循某种开源许可证，允许社区成员参与改进、贡献和分发...

aho-corasick:Go中的Aho-Corasick字符串搜索算法

05-19

Aho-Corasick Go中Aho-Corasick字符串搜索算法的实现。根据MIT许可获得许可。细节从几年前的，此实现就没有使用。这大大减少了构建时间，但以更高的内存消耗为代价。搜索时间仍然很快，并且可以与我在...

ahocorasick:使用Double Array Trie的Aho-Corasick算法的更快，更高效的Golang实现

05-28

Aho–Corasick算法介绍 Golang中Aho-Corasick算法的更快，更有效的实现，并且支持中文和英文。为了提高性能并减少内存使用，该程序使用Double Array Trie而不是常用的Linked List Trie 。在基准测试中， it is 10 times faster than the most popular AC algorithm implement in golang @ github and tenth of its memory usage ， it is 10 times faster than the most popular AC algorithm implement in golang @ github and tenth of its memory usage 。您可以在基准测试部分中找到更多信息。该项目的灵感来自除了使用

aho-corasick-node:基于DoubleArray Trie的Aho-Corasick字符串匹配算法的Node实现

05-01

aho-corasick-node 基于DoubleArray Trie的Aho-Corasick字符串匹配算法的Node实现。安装 npm install aho-corasick-node --save 用法建造 const AhoCorasick = require ( 'aho-corasick-node' ) ; const keywords = [ 'b' , 'ba' , 'nan' , 'ab' ] ; const builder = AhoCorasick . builder ( ) ; keywords . forEach ( k => builder . add ( k ) ) ; const ac = builder . build ( ) ; 比赛 const text = 'banana' ; const hits = ac . match ( text

基于 Double Array Trie 的 Aho Corasick算法的非常快的C# 实现_代码_下载

06-09

基于 Double Array Trie 的 Aho Corasick 算法的非常快速的 C# 实现：对具有 O(n) 复杂度的许多子字符串进行有效的文本搜索。非常快：可用于以 O(n) 复杂度对数千个关键字进行有效的子字符串搜索。 trie 用双数组方法表示以最小化内存使用自动机状态可以有效地保存/加载到二进制流（比如文件）支持不区分大小写的搜索

双数组 DoubleArray Trie树的数组实现双数组字典

10-26

Trie树是搜索树的一种，来自英文单词"Retrieval"的简写，可以建立有效的数据检索组织结构，是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机（DFA），每个节点代表自动机的一个状态。在词典中这种状态包括＂词前缀＂，＂已成词＂等。双数组Trie（Double-ArrayTrie）是trie树的一个简单而有效的实现，由两个整数数组构成，一个是base[]，另一个是check[]。设数组下标为i,如果base[i],check[i]均为0,表示该位置为空。如果base[i]为负值，表示该状态为词语。Check[i]表示该状态的前一状态，t=base[i]+a,check[t]=i

Aho-Corasick 双数组字典树：高效文本处理的利器

gitblog_00029的博客

04-10

518

Aho-Corasick 双数组字典树：高效文本处理的利器在计算机科学中，Aho-Corasick 算法是一种用于字符串搜索的算法，而是一个高效的 Python 实现，它利用了双数组字典树（Double Array Trie）数据结构。该项目由 hankcs 开发，旨在提供一种快速、内存效率高的方法，用于在大量文本中查找多个模式。项目简介 AhoCorasickDoubleArrayTri...

hanlp中的AhoCorasickDoubleArrayTrie

atarik@163.com

06-27

1972

点击打开链接

双数组Trie树(DoubleArrayTrie)Java实现

weixin_34241036的博客

06-09

447

为什么80%的码农都做不了架构师？>>> ...

DoubleArrayTrie和AhoCorasickDoubleArrayTrie的实用性对比

weixin_34344403的博客

06-13

674

为什么80%的码农都做不了架构师？>>> ...