最近和同学参加中国软件杯比赛选题是聚焦搜索引擎,项目中我用到了HtmlParser和Heritrix,可惜项目进度缓慢,在这里就把自己这2个星期的所得写下来吧。
说真的在百度上面搜索的话10篇里面有9篇都是复制粘贴的,感觉资料少让自己走了很多的弯路。
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
HtmlParser顾名思义HTML Parser is a Java library used to parse HTML。具体的文档大家可以去官网上面看。
从这里就能看到PCONLINE的产品页面都是同样的布局,所用的产品信息都放在ul.param.clerafix中,大家可以用火狐的页面查看功能很方便的查看,由此我们可以很方便的解析出页面中所要的信息。
public static String GetPconlinePlainText(String url){
ConnectionManager manager = new ConnectionManager();
String returnString ="";
try{
if(url != null){
Parser parser = new Parser(manager.openConnection(url));
parser.setEncoding("gbk");
NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
NodeList nodelist = parser.parse(liFilter);
NodeIterator it = nodelist.elements();
while(it.hasMoreNodes()){
Node node = (Node)it.nextNode();
returnString += node.toPlainTextString();
}
}
}catch(Exception e){
e.printStackTrace();
}
return returnString;
}
上面代码中的AndFilter即表示参数一和二都要符合的Node.当然你还可以得到网页中h1标签中的内容,也就是这个物品的主要名称。
当然Parser一共有3总重载,具体的大家可以阅读源码,特别要提一下的是如果你想用HtmlParser解析字串符的话就直接将字串符作为参数构造一个Parser就OK了。
public static String Geth1(String url){
ConnectionManager manager = new ConnectionManager();
String h1 = "";
try{
Parser parser = new Parser(manager.openConnection(url));
NodeFilter h1Node = new TagNameFilter("h1");
NodeList nodelist = parser.parse(h1Node);
h1 = nodelist.elementAt(0).toPlainTextString();
}catch(Exception e){
e.printStackTrace();
}
return h1;
}