/*
* 获取纯文本信息
*/
public static String getPlainText(String str) {
try {
Parser parser = new Parser();
parser.setInputHTML(str);
StringBean sb = new StringBean();
// 设置不需要得到页面所包含的链接信息
sb.setLinks(false);
// 设置将不间断空格由正规空格所替代
sb.setReplaceNonBreakingSpaces(true);
// 设置将一序列空格由一个单一空格所代替
sb.setCollapse(true);
parser.visitAllNodesWith(sb);
str = sb.getStrings();
} catch (ParserException e) {
e.printStackTrace();
}
return str;
}
HtmlParser抓取正文时去掉其中的js
最新推荐文章于 2016-08-29 17:18:37 发布
本文介绍了一种从HTML中提取纯文本的方法,通过使用Parser解析HTML并配置StringBean过滤器来去除链接、统一空格等,最终获取干净的纯文本字符串。
9231

被折叠的 条评论
为什么被折叠?



