爬虫技术与JSONP原理-优快云博客

2019独角兽企业重金招聘Python工程师标准>>>

爬虫，听起来似乎很高端，然而也就那么回事，有很多爬虫框架，Java实现的有crawler4j，WebCollector，webMagic，Python实现的最著名的应该是Scrapy，工作中用到，但是没用什么爬虫框架，整个工作基于HttpClient和Jsoup。

流程
1. HttpClient去模拟get和post请求；
2. 获取返回的数据，
  - 如果是json或者XML，直接解析；
  - 如果是html，使用Jsoup去分析；
技能要求
1. 熟悉HTML，JavaScript，jQuery
2. 熟悉HttpClient，Jsoup
使用工具
1. FireFox（FireBug）/ chrome : 用于观察HTML文档结构
2. WireShark：抓数据包（不是十分常用，在爬取不成功的时用于对比浏览器数据和模拟数据）
3. 一些插件，如 RESTClient（不常用）
额外的一些记录
1. HttpClient与jsonp

最近在爬取某市图书馆，发现其中有一个jsonp的请求，期初以为是一个普通的get请求，但是url感觉很奇怪，就搜了下，发现是jQuery的jsonp请求


#host地址已改

api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349