
HtmlParser
文章平均质量分 79
ancky_zhang
这个作者很懒,什么都没留下…
展开
-
HTMLParser使用详解(4)- 通过Visitor访问内容
HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。下面介绍使用Visitor访问内容的方法。4.1 NodeVisitor从简单方面的理解,Filter是根据某种条件过滤取出需要的Node再进行处理。Visitor则是遍历内容树的每一个节点,对于符合条件的节点进行处理。实际的结果异曲同工,原创 2009-03-09 16:23:00 · 790 阅读 · 0 评论 -
HTMLParser使用详解(1)- 初始化Parser
研究搜索引擎的开发中,对于HTML网页的处理是核心的一个环节。网上有很多开源的代码,对于Java来说,HTMLParser是比较著名并且得到广泛应用的一个。HTMLParser的主页是http://htmlparser.sourceforge.net/,最后的更新是2006年9月的1.6版。不过没关系,HTML的内容已经很久没有大的变化了,HTMLParser处理起来基本没有任何问题。HTMLP转载 2009-03-09 16:14:00 · 1223 阅读 · 0 评论 -
HTMLParser使用详解(5)- 扩展 HTMLParser 对自定义标签的处理能力
HTMLParser 是一个用来解析 HTML 文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。对该项目还不了解的朋友可以参照 2004 年三月份我发表的文章--《从HTML中攫取你所需的信息》,这篇文章介绍如何通过 HTMLParser 来提取 HTML 文档中的文本数据以及提取出文档中的所有链接或者是图片等信息。现在该项目的最新版本是 Integration原创 2009-03-09 16:24:00 · 2108 阅读 · 0 评论 -
HTMLParser使用详解(2)- Node内容
HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。请看Node的定义:public interface Node extends Cloneable;Node中包含的方法有几类:对于树型结构进行遍历的函数,这些函数最容易理解:Node getParent ():取得父节点NodeList getChildren ():取得子节点的列表Node getFi原创 2009-03-09 16:20:00 · 991 阅读 · 0 评论 -
HTMLParser使用详解(3)- 通过Filter访问内容
HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。(一)Filter类顾名思义,Filter就是对于结果进行过滤,取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。判断类Filter:TagNameF原创 2009-03-09 16:22:00 · 1374 阅读 · 0 评论