过滤信息敏感词

思想:

1.创建文件夹,填写需要过滤的词汇;

2.采用流的方式进行文件夹内容的读取;

3.将流信息以line为单位加入set集合(此处使用set集合的目的为去重);

4.将添加到set集合的敏感词库加入hashMap中(此处采用DFA算法,把每个词作为类似一棵树的形式存储):

eg.读取敏感词库,将敏感词放入HashSet中,构建一个DFA算法模型:    

 中 = { isEnd = 0 

         国 = {isEnd = 1

            人 = {isEnd = 0 

                 民 = {isEnd = 1} 

                 } 

             男  = {  isEnd = 0 

                 人 = {isEnd = 1 }

          }

     } 

五 = {

    isEnd = 0

    星 = {

        isEnd = 0 

         红 = {  

             isEnd = 0 

              旗 = { 

                 isEnd = 1 

                  } 

             } 

     } 

}

5.将目标字符串与敏感词库比较

 遍历目标字符串中的每个字符为开头,在敏感库中能否找到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值