去除网页中的一些样式
public static String removeImgUrl(String str)
{
if (str == null)
{
return "";
}
else
{
// 可能存在中文的尖括号或者英文的尖括号,所以需要过滤两次
return str.replaceAll("<", "<").replaceAll(">", ">")
.replaceAll("<img.*[^>]*>", "")
.replaceAll("<img.*[^>]*>", "").replaceAll("amp;", "")
.replaceAll("nbsp;", "").replaceAll("&;", "")
.replaceAll("[\\s*\\t*\\n\\r]", "");
}
}
// 过滤文本中的尖括号及中间的内容(主要是用于过滤样式),还有一些特殊的转义符:“&” 替换为“&” (&转义之后为&);
// “&;”替换为“”; 换行制表符回车等都替换为“”
public static String removeTextFormatAndImgUrl(String str)
{
if (str == null)
{
return "";
}
else
{
// 可能存在中文的尖括号或者英文的尖括号,所以需要过滤两次
return str.replaceAll("<", "<").replaceAll(">", ">")
.replaceAll("<[^>]*>", "").replaceAll("<[^>]*>", "")
.replaceAll("amp;", "").replaceAll("nbsp;", "")
.replaceAll("&;", "").replaceAll(""", "\"")
.replaceAll("[\\s*\\t*\\n\\r]", "");//
}
}