使用正则替换文档内容中的特殊字符

最新推荐文章于 2024-08-26 13:44:19 发布

原创最新推荐文章于 2024-08-26 13:44:19 发布 · 2.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#小问题

小问题专栏收录该内容

3 篇文章

订阅专栏

本文介绍如何使用正则表达式去除富文本编辑器产生的HTML标签，从而获取纯净文本内容。通过两种方法实现：Pattern和Matcher类及String类的replaceAll方法。

如果前端使用的是富文本编辑器，那么在编辑文档的时候数据库就会存一些样式标签例如<br> <p></p> <style>等等，有时间我们需要拿到一些纯净的数据，例如导出的时间，我们就不想这些标签展示，那么就可以使用正则来替换掉这些有一定规律的字符换

 String str1="<p> Hello <style> Word </br>";
        //第一种方法
        Pattern pattern = Pattern.compile("<.*?>");
        Matcher matcher = pattern.matcher(str1);
        String result = matcher.replaceAll("");

        //第二种方法
        String result1 = str1.replaceAll("<.*?>" ,"");

        System.out.println(result);
        System.out.println(result1);

    }

以上两种方法都可以实现上述需求输出为：Hello Word