[Erlang]AC自动机过滤屏蔽词

本文介绍了如何使用Erlang实现AC自动机,以接近O(n)的时间复杂度完成屏蔽词的检查、匹配和替换。目前提供了代码,并计划后续详细讲解Aho-Corasick算法。在Windows环境下运行时,需要注意命令行编码设置为Unicode以正确执行Erlang程序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Erlang实现的AC自动机,通过预处理屏蔽词能够实现接近O(n)的时间复杂度
实现了屏蔽词的检查、匹配、替换功能
先挖个坑,贴个代码,后续有时间再讲讲aho_corasick算法的原理
在文件根目录运行命令行程序,由于模块统一使用了utf8编码,windows命令行默认使用的是gbk,需要使用chcp 65001切换到unicode编码,然后使用命令erl打开erlang程序
c(aho_corasick)函数进行编译
在这里插入图片描述

aho_corasick:test()运行测试用例,可以看到成功的屏蔽了题目和作者名
在这里插入图片描述

%%%-------------------------------------------------------------------
%%% @author Huangcanxin cx2298545090@outlook.com
%%% @copyright (C) 2022
%%% @doc
%%% AC自动机
%%% @end
%%% Created : 23. 6月 2022 10:22
%%%-------------------------------------------------------------------
-module(aho_corasick).

-define(AC_TRIE_ROOT, 0).
-record(ac_trie, {
   
   
    mod,
    success,      % 成功跳转表
    failure,      % 回溯表
    output,       % 输出表
    child,
    next_node = 1
}).


%% API
-export([build/2, rebuild/2, rebuild/3]). % 生成树
-export([add_word/2, check/2, match/2, replace/3, replace/4, make_child/1, append_word/2]).
-export([init_trie/0, get/3, set/3, clean/1, foldl/3, erase/2]). % maps 结构的ac_trie
-export([merge/1, sub/2]).
-export([test/0]).


%%%% -----------------------------------
%%%% 添加关键词创建前缀树
%%%% -----------------------------------
% output 为了节省空间和加速替换存的是关键词长度
add_word(Word, AcTrie) ->
    add_word(Word, bit_size(Word), ?AC_TRIE_ROOT, AcTrie).
add_word(<<>>, OutputWord, Node, AcTrie) ->
    if
        OutputWord == 0 orelse OutputWord == <<>> ->
            AcTrie;
        true ->
            #ac_trie{
   
   output = Output, mod = Mod} = AcTrie,
            NOutput = Mod:set(Node, OutputWord, Output),
            AcTrie#ac_trie{
   
   output = NOutput}
    end;
add_word(<<Char/utf8, Left/binary>>, OutputWord, Node, AcTrie = #ac_trie{
   
   next_node = NextNode, child = Child, success = Success, mod = Mod}) ->
    case Mod:get({
   
   Node, Char}, Success, ?AC_TRIE_ROOT) of
        ?AC_TRIE_ROOT ->
            NSuccess = Mod:set({
   
   Node, Char}, NextNode, Success),
            ChildChar = Mod:get(Node, Child, []),
            NChild = Mod:set(Node, [Char | ChildChar], Child),
            NewAcTrie = AcTrie#ac_trie{
   
   next_node = NextNode + 1, child = NChild, success = NSuccess},
            add_word(Left, OutputWord, NextNode, NewAcTrie);
        GoNode ->
            add_word(Left, OutputWord, GoNode, AcTrie)
    end.

%%%% -----------------------------------
%%%% 通过success生成child
%%%% -----------------------------------
make_child(AcTrie) ->
    #ac_trie{
   
   success = Success, mod = Mod, child = Child} = AcTrie,
    NChild = Mod:foldl(
        fun({
   
   {
   
   Node, Char}, _V}, C) ->
            ChildChar = Mod:get(Node, C, []),
            Mod:set(Node, [Char | ChildChar], C)
        end,
        Child,
        Success
    ),
    AcTrie#ac_trie{
   
   child = NChild}.


%%%% -----------------------------------
%%%% 需要确保child存在
%%%% 追加关键词 会重新建立failure 需要添加多个词的话最好一次性插入
%%%% -----------------------------------
append_word([], AcTrie) ->
    #ac_trie{
   
   failure = Failure, mod = Mod} = AcTrie,
    NFailure 
资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 “班级网站设计源代码”是一个极具价值的学习资源,无论是初学者还是有一定基础的网页设计师,都能从中受益匪浅。它涵盖了完整的源代码,能够帮助大家深入理解网页综合设计的多种技术及其实际应用。这个压缩包内包含了一系列文件,共同构成了一个功能完备且可运行的班级网站。 网页设计是一个多维度的领域,涉及前端开发、后端开发以及用户体验设计等多个方面。在这个班级网站的设计过程中,我们可以学习到以下关键知识点: HTML(超文本标记语言):HTML是构建网页内容的基础框架,用于定义网页的各个组成部分,比如标题、段落、图片和链接等。通过这个项目,你可以直观地看到如何运用HTML标签搭建起网页的基本结构。 CSS(层叠样式表):CSS主要负责网页的外观和布局,让网页更具视觉吸引力。借助CSS,我们可以设置颜色、字体、布局,还能实现响应式设计,确保网站在不同设备上都能呈现出良好的显示效果。在该项目的源代码中,你会看到如何运用CSS打造出各种丰富的样式效果。 JavaScript:JavaScript是实现网页动态功能的关键技术,它可以处理用户交互、数据操作以及动画效果等。在班级网站中,JavaScript代码通常用于实现按钮点击事件、表单验证以及页面的动态更新等功能。 响应式设计:随着用户使用设备的日益多样化,网站必须能够适应不同大小的屏幕。通过媒体查询(Media Queries)和流式布局等技术,这个班级网站能够自动调整布局,以完美适配手机、平板和桌面电脑等多种设备。 前端框架与库:为了提升开发效率,现代网页设计中常常会借助前端框架,例如Bootstrap或Vue.js。这些框架提供了丰富的预设样式和组件,极大地简化了网页的构建流程。虽然是否使用了前端框架需要查看源代码才能确定,但了解它们的工作原理,对于提
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值