HtmlParser抓取正文时去掉其中的js

最新推荐文章于 2016-08-29 17:18:37 发布

原创最新推荐文章于 2016-08-29 17:18:37 发布 · 168 阅读

0 ·

CC 4.0 BY-SA版权

Java 专栏收录该内容

24 篇文章

订阅专栏

本文介绍了一种从HTML中提取纯文本的方法，通过使用Parser解析HTML并配置StringBean过滤器来去除链接、统一空格等，最终获取干净的纯文本字符串。

/*
	 * 获取纯文本信息
	 */
	public static String getPlainText(String str) {
		try {
			Parser parser = new Parser();
			parser.setInputHTML(str);

			StringBean sb = new StringBean();
			// 设置不需要得到页面所包含的链接信息
			sb.setLinks(false);
			// 设置将不间断空格由正规空格所替代
			sb.setReplaceNonBreakingSpaces(true);
			// 设置将一序列空格由一个单一空格所代替
			sb.setCollapse(true);
			parser.visitAllNodesWith(sb);
			str = sb.getStrings();
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return str;
	}