Nutch内容过滤的实现[转]

网页内容过滤器实现
本文介绍了一种基于Java实现的网页内容过滤器,该过滤器能够检查网页标题和内容是否包含预设的过滤词汇,并据此决定是否保留网页文档。通过遍历过滤词汇列表并与网页内容进行比对,实现对敏感或不合规内容的有效过滤。

public class ContentFilter implements IndexingFilter {

    private Configuration conf;

    public ContentFilter() {
    }
   
    /***
     * 过滤包含过滤词的网页,如果包含过滤词,则返回null
     */
    public NutchDocument filter(NutchDocument doc, Parse parse, Text url,
            CrawlDatum datum, Inlinks inlinks) throws IndexingException {
        String content = parse.getText();//取得网页内容
        String title = parse.getData().getTitle();//取得网页标题
        List<String> filterWords  = FilterWord.getFilterWords();//静态变量存储过滤词
        for(int i = 0; i < filterWords.size(); i++ ){
            if (content.contains(filterWords.get(i))) {
                doc = null;
            }
            if (title.contains(filterWords.get(i))) {
                doc = null;
            }
        }
        return doc;
    }

    public void setConf(Configuration conf) {
        this.conf = conf;
    }

    public Configuration getConf() {
        return this.conf;
    }

    public void addIndexBackendOptions(Configuration conf) {
        this.conf = conf;
    }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值