
爬虫
别追我我有止咳糖浆
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬取uputoo视频
爬取uputoo视频import jsonimport urllib.requestimport os,timefrom math import ceilfrom lxml import etreeimport reimport randomdef get_heders(): ua_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64;...原创 2018-11-12 08:30:16 · 349 阅读 · 0 评论 -
分布式scrapy+redis 爬取房天下租房信息
利用scrapy框架结合redis分布式爬虫#创建项目scrapy startproject homepro#根据提示进入指定目录创建爬虫scrapy genspider home example.com #spider爬虫scrapy genspider -t crawl home example #crawlspider爬虫其他不说直接行代码items.py代码...原创 2018-11-22 11:19:19 · 466 阅读 · 0 评论 -
模拟浏览器登录淘宝
模拟浏览器登录淘宝,使用传统的Selium以及phantomjs拖动滑块验证目前已经被淘宝识别,所以只能携带cookie登录,常用的方式就是用抓包工具抓取请求没然后添加在headers里,这里介绍的是手工登录保存cookie到本地,还是利用浏览器模拟,不多介绍,这里只是middlewares部分.class SeleiumMiddleware(object): def __init__(...原创 2018-11-20 08:47:05 · 2629 阅读 · 0 评论 -
scrapy模拟浏览器翻页爬取智联
智联爬取中,页码的数字和url是不匹配的,因此盲目的拼接url会造成错误,因此可以采用模拟浏览器爬取网页要模拟浏览器需要知道scrapy流程,简图如下:这里只是简单的写一些伪码,设计的数据清洗部分请看scrapy数据清洗middleswares.pyfrom scrapy.http import HtmlResponsefrom selenium import webdriverfr...原创 2018-11-29 17:17:28 · 2499 阅读 · 3 评论 -
scrapy数据清洗:
scrapy数据清洗:在爬取数据过程中,有些数据不是我们需要的,或者有的数据格式不符合我们的要求,需要进行处理然后在进行保存,传统的方法就是在items中定义我们需要的字段,例如:class ShetuItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() ...原创 2018-11-28 16:34:39 · 2943 阅读 · 0 评论 -
scrapy框架流程
scrapy框架是基于python的爬虫框架,大致流程如下:scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。 Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。scrapy 框架的工作流...原创 2018-11-28 17:09:57 · 608 阅读 · 0 评论