http://download.youkuaiyun.com/detail/lostchris/9432552
上面是案例。。。
过年的时候一直想弄点网络爬虫好为今年毕业论文提供数据准备。。。
楼主先后试过httpClient,jsoup,htmlunit发现还是jsoup好用,
httpClient用起来繁琐,还有个乱码问题要解决。。。
htmlunit虽然功能强大能获取执行JS后的网页内容,但是非常不稳定,加上htmlunit执行JS时间不可知,htmlunit对JS格式要求严格,部分网站采用的JS格式不太标准(不太碍事的那种),htmlunit就会抛错,还有一点htmlunit耗时太长。。。
相对其他两种,jsoup使用起来简洁容易上手,soup 也是一款基于Java 的HTML解析器,可直接解析某个URL地址或HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
使用jsoup一般来说需要注意的只有一点。。。就是要设置userAgent....在1.8.3版本里org.jsoup.Connection有单独的方法设置
例如Connection conn=Jsoup.con