编写爬虫一般有三种方法:
1. 通过网站的API搜索信息,这是最快最准的。
2. 拼凑url请求,自己解析。
3. 爬网页解析,最笨最慢最不稳定的方法。
N多方法,最好使用API,最不好就爬网页。
共有31款Java 网络爬虫开源软件,网址:http://www.oschina.net/project/tag/64/spider?lang=19&os=0&sort=view&p=1,其中Nutch和Heritrix比较流行
jsoup
http://tieba.baidu.com/p/2114471038
java开源web爬虫简介
http://www.open-open.com/68.htm
webmagic 0.2.0 发布,Java垂直爬虫框架
http://www.oschina.net/news/43130/webmagic-0-2-0
搜狗微信API
抓取微信号信息
http://weixin.sogou.com/weixinjs?query=微信号
http://weixin.sogou.com/weixinjs?query=微信号&page=2
抓取文章
http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=“+biz+”&uin=”+uin+”&key=”+key+”&f=json”;
头像接口:
http://img01.sogoucdn.com/app/a/100520090/oIWsFtzcKVfiAn9vIn-RC5vPURho
二维码接口:
http://img03.sogoucdn.com/app/a/100520105/nJB0eyHE6x_UhzAYn8W4