
scrapy爬虫
木讷大叔爱运维
对的那条路,往往不是最好走的!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy爬虫之crwalspider模拟登陆
简介前面的几篇博文都是使用默认basic模版生成的spider,即scrapy.Spider。scrapy所有的spider都继承自scrapy.Spider,它默认使用start_requests()方法请求start_urls()中的url,并且默认使用pase()方法处理返回的response。我们需要注意的是scrapy开始运行后start_requests()方法只会被调用一次。原创 2018-01-12 21:40:30 · 2366 阅读 · 5 评论 -
scrapy爬虫之《琅琊榜2》话题title收集及词云展示
简介最近看微信公众号上好多文档关于豆瓣上电影的影评分析的,感觉挺有意思的,就拿《琅琊榜2》也来尝试下。本文主要是使用scrapy爬取豆瓣上的《琅琊榜2》的话题讨论区并用作词云展示。至于为什么使用scrapy,主要是之前使用过python的beautifulsoup、selenium等模块,各个功能都是自己写的,不是很系统,而scrapy作为爬虫框架内置css、xpath且异步抓取,效率很高。实现一、原创 2017-12-27 08:18:51 · 1675 阅读 · 1 评论 -
scrapy爬虫之crawlspide爬取豆瓣近一周同城活动
简介本文主要介绍crawlspider爬取豆瓣近一周同城活动。要点:item/itemloader利用input_processor/output_processor对爬取的数据进行过滤。实现为了演示数据过滤,我们只爬取到第二页的数据。一、定义itemvim items.pyclass tongcheng(scrapy.Item): #主题原创 2018-01-14 18:44:16 · 1172 阅读 · 2 评论 -
scrapy爬虫之抓取《芳华》短评及词云展示
简介在scrapy爬虫之《琅琊榜2》话题title收集及词云展示 及scrapy爬虫之模拟登录豆瓣l 两篇博文中,我们分别实现了直接爬取内容及模拟登陆豆瓣,现在我们将这两个功能整合到一起,实现模拟登陆豆瓣并scrapy爬虫之抓取《芳华》短评及词云展示。要点:给爬虫配置cookie,并配合yield访问,使得爬虫能保持用户已登录的状态,达到获得那些需登录才能访问的页面的目的。实现原创 2018-01-06 12:56:13 · 1857 阅读 · 0 评论 -
scrapy爬虫之item/itemloader机制爬取豆瓣电影top250
简介前面的博文网页的基本解析流程就是先通过 css/xpath 方法进行解析,然后再把值封装到 Item 中,如果有特殊需要的话还要对解析到的数据进行转换处理,这样当解析代码或者数据转换要求过多的时候,会导致代码量变得极为庞大,从而降低了可维护性。同时在 sipider 中编写过多的数据处理代码某种程度上也违背了单一职责的代码设计原则。我们需要使用一种更加简洁的方式来获取与处理网页数据,ItemLo原创 2018-01-08 11:06:08 · 1968 阅读 · 2 评论 -
scrapy爬虫之模拟登录豆瓣
简介在之前的博文python爬虫之模拟登陆csdn使用urllib、urllib2、cookielib及BeautifulSoup等基本模块实现了csdn的模拟登录,本文通过scrapy模拟登录豆瓣,来深入了解下scrapy。豆瓣登录需要输入图片验证码,我们的程序暂时不支持自动识别验证码,需要将图片下载到本地并打开以进行人工识别输入到程序中。分析豆瓣登录1.分析豆瓣登录页的样式原创 2017-12-28 12:29:22 · 7345 阅读 · 6 评论 -
scrapy爬虫之抓取京东机械键盘评论量并画图展示
简介Scrapyd作为守护进程,运行scrapy爬虫的服务程序,它支持以http/json命令方式发布、删除、启动、停止爬虫程序。scrapyd可以管理多个project,并且每个project可以有多个版本,但是只有最新版本被用来运行spider。Scrapyd-client是一个专门用来发布scrapy爬虫的工具,虽然也具有部分管理功能,但是不如scrapyd齐全,因此建议只用来发布。注意:原创 2018-02-01 08:23:38 · 1180 阅读 · 0 评论 -
scrapy爬虫之item pipeline保存数据
简介前面的博文我们都是使用”-o *.josn”参数将提取的item数据输出到json文件,若不加此参数提取到的数据则不会输出。其实当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。当我们创建项目时,scrapy会生成一个默认的pipelines.py,如:vim pipelines.pyclass Doub原创 2018-02-01 08:25:51 · 13755 阅读 · 1 评论 -
scrapy爬虫之scrapyd-client管理spider
简介Scrapyd作为守护进程,运行scrapy爬虫的服务程序,它支持以http/json命令方式发布、删除、启动、停止爬虫程序。scrapyd可以管理多个project,并且每个project可以有多个版本,但是只有最新版本被用来运行spider。Scrapyd-client是一个专门用来发布scrapy爬虫的工具,虽然也具有部分管理功能,但是不如scrapyd齐全,因此建议只用来发布。注意:原创 2018-02-01 08:27:54 · 3137 阅读 · 0 评论