
htmlparse
iteye_8381
这个作者很懒,什么都没留下…
展开
-
htmlparser入门讲解
一,数据组织分析:HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应html文本的方法,定义了该节点对应的起止位置,定义了过...原创 2010-07-12 22:20:55 · 159 阅读 · 0 评论 -
HtmlParser 解析HTML
1.可以在任何.net语言中使用(C#,VB.net,J#等)2.可以解析几乎所有的Html标签,并且可以通过标签类别、属性或正则表达式来搜索标签。有些甚至在Java版本中无法支持的标签也在这个版本中得到了支持。3.设置可扩展的过滤器来过滤结果集中不需要的标签。4.高性能的API接口使得你能处理许多常见的问题,如:哪些是页面中的外部链接?哪些是图片?哪些是不同的表格?页面中有错误的链接吗等等问题。...原创 2010-07-16 16:06:35 · 133 阅读 · 0 评论 -
htmlparse filter 说明
StringFilter:全文匹配过滤器,匹配成功返回ture。StringFilter (String pattern) 默认构造函数字符串大小写不敏感 。StringFilter (String pattern, boolean sensitive) 大小写设置是否敏感,敏感则不转换,不敏感则所有字符串中全部转换成大写 RegexFilter:正则表达式匹配过滤器。RegexFil...原创 2010-08-09 15:38:13 · 130 阅读 · 0 评论 -
自定义tag
htmlparse中自定义节点 public class BoldTag extends CompositeTag{ private static final String[] mIds = new String[] {"B"}; public BoldTag () { } public String[] getIds () { ...原创 2010-08-10 15:58:39 · 102 阅读 · 0 评论