- 博客(4)
- 收藏
- 关注
原创 Flume 以twitter为source,kafka为channel,hdfs为sink,再用spark streaming 读kafka topic
Flume kafka为channel,hdfs为sink,spark streaming
2017-08-03 18:09:15
831
原创 scrapy User Agent切换的两种方法
第一种是使用在setting里面设置middlewares。 这个网上有较多版本,我觉得这个版本写的比较好,也比较新。 有的旧版本还在使用scrapy.contrib.downloadermiddleware。scrapy新的版本里已经不用contrib了,直接写scrapy.downloadermiddleware就可以了。 note: 另外为了避免覆盖本身的middlewares.py
2017-05-10 21:00:58
791
原创 scrapy post request 和response方法
接上篇是在requests module里post request 这里scrapy自己有request方法,一般的就用request方法就可以,post方法要用form request,例子: url="http://english.ctrip.com/chinaflights/ListPartial/GetRefundEndorseV2" payload = {'item':reinfo
2017-05-02 20:43:21
1262
原创 Python Requests post并将得到结果转换为json
编程小白一个,目前在学习python 爬虫。 之前看到一个博主说些博客对于程序员来说挺重要的,没怎么在意。今天觉得面对一个问题好不容易找到解决方案,是应该记录一下。说不定还有人来讨论讨论,哈哈! 之前开始接触用scrapy批量抓取网页,一直很怕面对要调用JS的内容,因为对JS和http request完全不懂,这次遇到一个小地方需要分析url请求,只能硬着头皮上了,东查查西问问的。遇到问题不能
2017-04-28 20:01:54
93076
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人