htmlparser去除html标签

最新推荐文章于 2021-06-24 07:52:48 发布

原创最新推荐文章于 2021-06-24 07:52:48 发布 · 244 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#HTML

java 专栏收录该内容

56 篇文章

订阅专栏

本文介绍了一种使用Java实现的HTML文本解析方法，该方法通过Parser创建解析器，并遍历所有HTML元素，将其转换为纯文本字符串。适用于从HTML文档中提取文本内容的应用场景。

	private String rep(String html) {
		StringBuffer sb = new StringBuffer();
		try
		{
	     Parser parser = Parser.createParser(html,"8859_1");
		   NodeIterator its  = parser.elements();
		   
		   while(its.hasMoreNodes())
		   {
			   Node node = (Node) its.nextNode();
			   sb.append(node.toPlainTextString());
		   }
		   return sb.toString();
		   }catch(Exception ex)
		   {
		   		ex.printStackTrace();
		   		return html;
		   }
	   }