HtmlCleaner Html文档解析器

       HtmlCleaner 是一个开源的Java 语言的Html 文档解析器。HtmlCleaner 能够重新整理HTML文档的每个元素并生成结构良好 (Well-Formed )的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的 小,快速,灵活而且独立。HtmlCleaner 也可用在Java代码中,当命令行工具或Ant任务。 解析后编程轻量级文档对象,能够很容易的被转换到DOM 或者JDom 标准文档,或者通过各种方式(压缩,打印)连续输出XML

新版本的重要功能更新包括:

  1.HtmlCleaner 的文档对象模型现在拥有了一些函数,处理节点和属性,所以现在在序列化之前搜索或者编辑是非常容易的。   

      2.提供基本HtmlCleaner DOMXPath 支持

  3.使用XML配置温江让创建定制tag 变得更加容易

  4.修复多个bug 以及API改进

 

 

爬虫爬下来的文件,用HtmlCleaner  解析,速度非常快,比正则查找,Dom快了很多。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值