在做一个读取新闻摘要的时候,需要提取正文的字符。可是一般提取出来都有html标记格式,而这些会影响页面的效果。
在网上找到下面这个 去除HTML标记的方法。
/**移出HTML中的内容**/
public static String removeHTML(String input,int length){
if (input == null || input.trim().equals("")) {
return "";
}
// 去掉所有html元素,
String str = input.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(
"<[^>]*>", "");
str = str.replaceAll("[(/>)<]", "");
int len = str.length();
if (len <= length) {
return str;
} else {
str = str.substring(0, length);
str += "......";
}
//System.out.println(" 去除html后的字符 : "+str);
return str;
}