String str="one <a href=u.php?action=show&uid=122113 target=_blank>超链接文本</a> two <a> adfadf </a> Three"; System.out.println("before:-----------------\n"+str); //String regex="<\\s*a.*?/a\\s*>";//过滤标签和内容 //String regex="<a.*?</a>";//过滤标签和内容 str=str.replaceAll("<([a-zA-Z]+)[^<>]*>(.*?)</\\1>", "$2");//过滤标签,留下内容 System.out.println("after:-----------------\n"+str);
本文分享了一种在Java中去除HTML标签的有效方法,通过正则表达式替换,实现了从字符串中精确移除HTML标签而保留文本内容的目标。这种方法对于处理网页抓取或文本清洗任务尤为实用。
156

被折叠的 条评论
为什么被折叠?



