Java 正则表达式去除HTML标记

去除HTML标记的Java方法

原创于 2012-10-13 20:30:36 发布 · 711 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#html #正则表达式 #java #string #input #null

Java 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一种使用Java去除HTML标记的方法，该方法能够有效提取纯文本内容，适用于新闻摘要等场景。

在做一个读取新闻摘要的时候，需要提取正文的字符。可是一般提取出来都有html标记格式，而这些会影响页面的效果。
在网上找到下面这个去除HTML标记的方法。

/**移出HTML中的内容**/
	public static String removeHTML(String input,int length){
		 
		if (input == null || input.trim().equals("")) {
			return "";
		}
		// 去掉所有html元素,
		String str = input.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(
				"<[^>]*>", "");
		str = str.replaceAll("[(/>)<]", "");
		int len = str.length();
		if (len <= length) {
			return str;
		} else {
			str = str.substring(0, length);
			str += "......";
		}
		//System.out.println(" 去除html后的字符 ： "+str);
		return str;
		 
	}