通过正则表达式提取HTML正文(java实现)

最新推荐文章于 2025-05-12 11:30:01 发布

kill -9

最新推荐文章于 2025-05-12 11:30:01 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： java-基础文章标签：正则表达式

本文链接：https://blog.youkuaiyun.com/wowSpark/article/details/50458157

java-基础专栏收录该内容

3 篇文章

订阅专栏

场景：现有一批大量的网页数据，已经抓取到网页的body内容，但是其中有很多 <\span>、 <\p>、<\img>、<\br>、<\strong> 等标签,需要将这些标签全部过滤掉，只留下正文信息。

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetContent {

    private static String REGEX = "<.+?>";
    private static String INPUT = "";
    private static String REPLACE = "";

    public static void main(String[] args) throws IOException {
        File file = new File("G:\\test.txt");
        BufferedReader reader = new BufferedReader(new FileReader(file));
        String tempString = null;
        // 一次读入一行，直到读入null为文件结束
        while ((tempString = reader.readLine()) != null) {
            INPUT += tempString;
        }
        reader.close();

        Pattern p = Pattern.compile(REGEX);
        Matcher m = p.matcher(INPUT); // 获得匹配器对象
        INPUT = m.replaceAll(REPLACE);
        System.out.println(INPUT);

    }
}