private String rep(String html) {
StringBuffer sb = new StringBuffer();
try
{
Parser parser = Parser.createParser(html,"8859_1");
NodeIterator its = parser.elements();
while(its.hasMoreNodes())
{
Node node = (Node) its.nextNode();
sb.append(node.toPlainTextString());
}
return sb.toString();
}catch(Exception ex)
{
ex.printStackTrace();
return html;
}
}
本文介绍了一种使用Java实现的HTML文本解析方法,该方法通过Parser创建解析器,并遍历所有HTML元素,将其转换为纯文本字符串。适用于从HTML文档中提取文本内容的应用场景。
293

被折叠的 条评论
为什么被折叠?



