关键字过滤

本文介绍了一种基于前缀树(Trie树)的关键词匹配算法实现。该算法能够高效地在文本中查找预设的关键词,并通过递归方式检查文本中的每一个字符是否匹配关键词序列。此外,还提供了一个设置关键词的方法,用于初始化关键词库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import java.io.CharArrayWriter;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class Keyword{
    private WordSeqPart rootWordSeqPart = new WordSeqPart();

    @Override
    public boolean isMatchKeyWord(String content) {
        if (null == content) {
            return false;
        }
        for (int i = 0; i < content.length(); i++) {
            char c = content.charAt(i);
            WordSeqPart wsp = rootWordSeqPart.getNextSeqPart(c, false);
            if (null == wsp) {
                continue;
            }
            CharArrayWriter caw = new CharArrayWriter();
            caw.append(c);
            if (wsp.isWordEnd()) {
                logMatch(caw.toCharArray());
                return true;
            }
            for (int j = i + 1; j < content.length(); j++) {
                c = content.charAt(j);
                wsp = wsp.getNextSeqPart(c, false);
                if (null == wsp) {
                    break; // not match
                } else {
                    caw.append(c);
                    if (wsp.isWordEnd()) {
                        logMatch(caw.toCharArray());
                        return true;
                    }
                }
            }
        }
        // 遍历了整个字符串,都没有命中
        return false;
    }

    private void logMatch(char[] arry) {
        //TODO log
    }

    public void setKeyWords(List<String> keyWords) {
        if (null == keyWords) {
            return;
        }
        for (String keyword : keyWords) {
            WordSeqPart wsp = rootWordSeqPart;
            for (int i = 0; i < keyword.length(); i++) {
                char c = keyword.charAt(i);
                wsp = wsp.getNextSeqPart(c, true);
            }
            wsp.setWordEnd(true);
        }
    }

    private class WordSeqPart {
        private Map<Character, WordSeqPart> nextSeqPartMap = new HashMap<Character, WordSeqPart>();
        private boolean wordEnd;

        WordSeqPart getNextSeqPart(char c, boolean toCreate) {
            WordSeqPart wsp = nextSeqPartMap.get(c);
            if (null != wsp) {
                return wsp;
            } else {
                if (toCreate) {
                    wsp = new WordSeqPart();
                    nextSeqPartMap.put(c, wsp);
                    return wsp;
                } else {
                    return null;
                }
            }
        }

        boolean isWordEnd() {
            return wordEnd;
        }

        void setWordEnd(boolean wordEnd) {
            this.wordEnd = wordEnd;
        }

    }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值