爬虫笔记

本文介绍了Java网络爬虫的三种方法:通过网站API搜索信息、拼凑URL请求自行解析和爬网页解析,并列举了31款Java网络爬虫开源软件,包括Nutch和Heritrix等流行工具。此外,还提供了使用Sogou API抓取微信号信息、文章和头像等实例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

编写爬虫一般有三种方法:
1. 通过网站的API搜索信息,这是最快最准的。
2. 拼凑url请求,自己解析。
3. 爬网页解析,最笨最慢最不稳定的方法。
N多方法,最好使用API,最不好就爬网页。

共有31款Java 网络爬虫开源软件,网址:http://www.oschina.net/project/tag/64/spider?lang=19&os=0&sort=view&p=1,其中Nutch和Heritrix比较流行

jsoup
http://tieba.baidu.com/p/2114471038

java开源web爬虫简介
http://www.open-open.com/68.htm

webmagic 0.2.0 发布,Java垂直爬虫框架
http://www.oschina.net/news/43130/webmagic-0-2-0

搜狗微信API
抓取微信号信息
http://weixin.sogou.com/weixinjs?query=微信号
http://weixin.sogou.com/weixinjs?query=微信号&page=2

抓取文章
http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=“+biz+”&uin=”+uin+”&key=”+key+”&f=json”;

头像接口:
http://img01.sogoucdn.com/app/a/100520090/oIWsFtzcKVfiAn9vIn-RC5vPURho

二维码接口:
http://img03.sogoucdn.com/app/a/100520105/nJB0eyHE6x_UhzAYn8W4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值