前言:本人在实现业务逻辑的时候,需要在后台把带HTML标签(富文本)数据的文章截取成文章的摘要,涉及到怎么处理带HTML标签数据 ,在网上一共找到了两种解决方法:
1、调用HtmlParser插件
HtmlParser 简介
htmlparser是一个纯的java写的html解析的库,主要用于改造或提取html。用来分析抓取到的网页信息是个不错的选择,遗憾的是参考文档太少。
项目主页:http://htmlparser.sourceforge.net/
API文档: http://htmlparser.sourceforge.net/javadoc/index.html
项目主页:http://htmlparser.sourceforge.net/
API文档: http://htmlparser.sourceforge.net/javadoc/index.html
参考博客:http://blog.youkuaiyun.com/fancy3013/article/details/50965112
2、引用一个方法直接去掉HTML标签
这也是我在项目所用的,是别人写好的一个方法。
public String parseHtml(String html,int length) {
if(html == null || html == "") {
return html = "空";
}else {
if(html.length()<length){
return html;
}else {
/*
* <.*?>为正则表达式,其中的.表示任意字符,*?表示出现0次或0次以上,此方法可以去掉双头标签(双头针对于残缺的标签)
* "<.*?"表示<尖括号后的所有字符,此方法可以去掉残缺的标签,及后面的内容
* " ",若有多种此种字符,可用同一方法去除
*/
html = html.replaceAll("<.*?>", " ").replaceAll("", "");
html = html.replaceAll("<.*?", "");
return (html.substring(0, length) + "...");
}
}
}
参考博客:https://www.cnblogs.com/cnsevennight/p/4468055.html