由Java爬虫所想到的

爬虫,听起来似乎很高端,然而也就那么回事,有很多爬虫框架,Java实现的有crawler4j,WebCollector,webMagic,Python实现的最著名的应该是Scrapy,工作中用到,但是没用什么爬虫框架,整个工作基于HttpClient和Jsoup。

  • 流程

    1. HttpClient去模拟get和post请求;

    2. 获取返回的数据,

      • 如果是json或者XML,直接解析;

      • 如果是html,使用Jsoup去分析;

  • 技能要求

    1. 熟悉HTML,JavaScript,jQuery

    2. 熟悉HttpClient,Jsoup

  • 使用工具

    1. FireFox(FireBug)/ chrome : 用于观察HTML文档结构

    2. WireShark:抓数据包(不是十分常用,在爬取不成功的时用于对比浏览器数据和模拟数据)

    3. 一些插件,如 RESTClient(不常用)

  • 额外的一些记录

    1. HttpClient与jsonp

最近在爬取某市图书馆,发现其中有一个jsonp的请求,期初以为是一个普通的get请求,但是url感觉很奇怪,就搜了下,发现是jQuery的jsonp请求


#host地址已改

api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349

转载于:https://my.oschina.net/jarvan4dev/blog/685778

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值