CssSelectorNodeFilter用法

最新推荐文章于 2024-11-06 05:37:11 发布

原创最新推荐文章于 2024-11-06 05:37:11 发布 · 331 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#htmlparser #css selector #filter #CssSelectorNodeFilter #java

java 同时被 2 个专栏收录

9 篇文章

订阅专栏

htmlparser

2 篇文章

订阅专栏

本文演示了HtmlParser 1.6版本中CssSelectorNodeFilter的使用方法，包括如何提取特定HTML元素的链接。

这里演示htmlparser1.6中CssSelectorNodeFilter的用法。
这个版本的CssSelector不支持pseudoclasses，比如:parent是不能用的。

import org.htmlparser.Parser;
import org.htmlparser.filters.CssSelectorNodeFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class ItemExtractor {
  public static void main(String[] args) {
    String url = "http://www.some.site/aa.html";
    String[] rlt=getItemLinks(url);
    for(int i=0;rlt!=null && i<rlt.length;i++){
      System.out.println(rlt[i]);
    }
  }
  public static String[] getItemLinks(String url){
    String[] rlt=null;
    CssSelectorNodeFilter divFilter=new CssSelectorNodeFilter ("div[id='someid'] .className a");
    try {
      Parser parser = new Parser(url);
      NodeList list = parser.extractAllNodesThatMatch(divFilter);
      rlt=new String[list.size()];
      for(int i=0;i<list.size();i++){
        TagNode n1=(TagNode)list.elementAt(i);
        rlt[i]=n1.getAttribute("href");
      }
    } catch (ParserException e) {
      e.printStackTrace();
    }
    return rlt;
  }
}

真的吗？