这里演示htmlparser1.6中CssSelectorNodeFilter的用法。
这个版本的CssSelector不支持pseudoclasses,比如:parent是不能用的。
import org.htmlparser.Parser;
import org.htmlparser.filters.CssSelectorNodeFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class ItemExtractor {
public static void main(String[] args) {
String url = "http://www.some.site/aa.html";
String[] rlt=getItemLinks(url);
for(int i=0;rlt!=null && i<rlt.length;i++){
System.out.println(rlt[i]);
}
}
public static String[] getItemLinks(String url){
String[] rlt=null;
CssSelectorNodeFilter divFilter=new CssSelectorNodeFilter ("div[id='someid'] .className a");
try {
Parser parser = new Parser(url);
NodeList list = parser.extractAllNodesThatMatch(divFilter);
rlt=new String[list.size()];
for(int i=0;i<list.size();i++){
TagNode n1=(TagNode)list.elementAt(i);
rlt[i]=n1.getAttribute("href");
}
} catch (ParserException e) {
e.printStackTrace();
}
return rlt;
}
}

真的吗?

本文演示了HtmlParser 1.6版本中CssSelectorNodeFilter的使用方法,包括如何提取特定HTML元素的链接。
6878

被折叠的 条评论
为什么被折叠?



