通过正则表达式提取HTML正文(java实现)

场景:现有一批大量的网页数据,已经抓取到网页的body内容,但是其中有很多 <\span>、 <\p>、<\img>、<\br>、<\strong> 等标签,需要将这些标签全部过滤掉,只留下正文信息。

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetContent {

    private static String REGEX = "<.+?>";
    private static String INPUT = "";
    private static String REPLACE = "";

    public static void main(String[] args) throws IOException {
        File file = new File("G:\\test.txt");
        BufferedReader reader = new BufferedReader(new FileReader(file));
        String tempString = null;
        // 一次读入一行,直到读入null为文件结束
        while ((tempString = reader.readLine()) != null) {
            INPUT += tempString;
        }
        reader.close();

        Pattern p = Pattern.compile(REGEX);
        Matcher m = p.matcher(INPUT); // 获得匹配器对象
        INPUT = m.replaceAll(REPLACE);
        System.out.println(INPUT);

    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值