【转】几个open source的html parser的比较

最新推荐文章于 2025-08-19 16:28:29 发布

原创最新推荐文章于 2025-08-19 16:28:29 发布 · 135 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#html #nekohtml #htmlparser

本文对比了几种开源的HTML解析器，包括HTMLParser、Jericho、NekoHTML和TagSoup等，介绍了它们的特点、大小及使用方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转自：http://javashow.blog.163.com/blog/static/12109964200491452690/

几个open source的html parser的比较

HTMLParser

最先是看见SourceForge上下载的包，真是有点大的吓人，一个小小的html parser, 居然有5M。下载回来，展开刨去文档等等杂乱的部分，source也还是不小的。用ant build过后，生成两个jar，htmlparser.jar(200k)和htmllexer.jar(56k)。我关心的是对html文件的剖析，所以只关心parser。试了一下，似乎独立的htmlparser.jar就可以了，不需要lib目录里面那些依赖的库。类的结构是比较清晰，划分的比较细致。source目录中有几个sample，都比较简单，很容易看懂。和使用xml parser感觉差不多，也有Event driver的接口，扩充一下也很容易生成DOM Tree，容易上手。

Jericho
一个简单小型的html parser，程序包比较小，500K左右，build出来的jar包40k, 相对于上面的html parser来说是小巧了很多。使用方面，Jericho没有提供类似SAX的接口，也不关注细部结构。对于Jericho核心概念是Segment，一个标记，一段内容，都是Segment，在这个概念层次之上是startTag, endTag等等。看了Jericho自己带的Sample，也都很简单，不过平时用惯了XML一套处理方法的人，会比较不习惯的，我想。源代码的质量一般，没有HTML Parser的好看。

NekoHTML
这是一个基于apache Xerces-j，依赖于Xerces-j的XNI接口。想到Xerces-j那么大的一个东西，就发毛，放弃。

Java HTML Parser
主页除了下载的连接，没有啥更多信息了，看着也比较让人发毛，没有试

TagSoup
主页上的download source链接断了，给作者发了信，很快有了答复，说修好了。编译出来的jar包30K，也算短小精悍。因为核心代码需要用模板生成，所以必须在有perl的环境中才能正常编译。没有文档，没有简单的Sample，看source，有些头晕，感觉更合适做编译原理语法分析和状态机这个部分的演示教材。
BTW: 主页上说，TagSoup的handler接口和SAX的handler非常相近，不过也没有明确的说，就是完全兼容的。