从网上down了很多信息,但是带了一些不需要的table,div等标签,影响显示布局,就批量清理一下,我这里只保留p和br,要保留其他的,稍微修改一下规则就ok了
[b]原理很easy:[/b]
1. 换掉所有的script和style
2. '换成'',方便操作数据库,这个不需要可以去掉
3. 把要保留的标签如<br />替换为[--br /--]
4. 替换掉剩下的以“<”开始以“>”结尾的内容
5. 把[--abc--]这类东西换回来,使用反向引用
[b]原理很easy:[/b]
1. 换掉所有的script和style
2. '换成'',方便操作数据库,这个不需要可以去掉
3. 把要保留的标签如<br />替换为[--br /--]
4. 替换掉剩下的以“<”开始以“>”结尾的内容
5. 把[--abc--]这类东西换回来,使用反向引用
/**
* description: 只保留br、p标签<br>
*
* @return 2010-4-2
* @author huxiao kskr@qq.com
*/
public static String clear(String htmlStr) {
return htmlStr.replaceAll("<script.*</script>", "").replaceAll("<style.*</style>", "").replaceAll("'", "''").replaceAll("<(/?p|br[^>]*)>", "[--$1--]").replaceAll("<[^<>]+>", " ").replaceAll("\\[--([^-]+)--\\]", "<$1>");
}
本文介绍了一种简单的HTML文本清理方法,该方法通过特定规则批量移除不必要的HTML标签(如table和div),仅保留p和br标签,以改善文本显示布局。
1562

被折叠的 条评论
为什么被折叠?



