
scrapy
文章平均质量分 60
xudailong_blog
徐代龙的新博客:http://blog.youkuaiyun.com/xudailong_blog
微信公众号:蛇崽网盘教程资源
展开
-
ImportError: No module named RedisCrawlSpider
问题:出现的问题是在centos7 安装scrapy的时候出现的,当时使用的python3.6 环境 File "/home/chan/example-project/example/spiders/mycrawler_redis.py", line 4, in module> import RedisCrawlSpiderImportError: No module nam原创 2018-01-14 17:05:23 · 2625 阅读 · 0 评论 -
Centos7 服务器上phantomjs自启动问题
版权声明:本文为徐代龙原创文章,未经徐代龙允许不得转载。 https://blog.youkuaiyun.com/xudailong_blog无界面浏览器phantomjs是selenium子包webdriver下面的一个浏览器,本身是一个浏览器(headless browser),更详细的使用教程可移步:[官方文档]http://selenium-python-zh.readthedocs.io...原创 2018-04-21 22:16:00 · 1527 阅读 · 0 评论 -
python3 scrapy 爬虫实战之爬取站长之家
爬取目标 站长之家:http://top.chinaz.com/all/爬取工具 win10 python3 scrapy BeautifulSoup爬取内容 1 网站缩略图 2 网站名称 3 网址 4 Alexa排名,5 百度权重 6 网站简介 7 网站得分爬取理由 想着可以通过网站top 来注...原创 2018-05-17 22:04:28 · 2051 阅读 · 4 评论 -
用shell同时执行多个scrapy命令
项目中单机使用shell脚本进行多个scrapy命令的运行,即同个shell进行多个scrapy命令的执行,这样会大大提高爬取效率,好好利用CPU使用率在shell命令行一次执行多个scrapy命令,可以有三种方式:(一)每个命令之间用 ; 隔开 各命令的执行结果,不会影响其他命令的执行。也就是命令执行起来,不一定都能保证成功。 或的意思 scrapy cra...原创 2018-05-21 20:57:12 · 1457 阅读 · 0 评论 -
python3 爬虫实战之爬取网易新闻APP端
留坑:网易新闻类型:{"BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"}原创 2018-05-23 23:19:56 · 6881 阅读 · 0 评论 -
scrapy_redis对接布隆过滤器(Bloom Filter)
使用方式:pip3 install scrapy-redis-bloomfilter使用的方法和Scrapy-Redis基本相似,在这里说明几个关键配置。# 去重类,要使用Bloom Filter请替换DUPEFILTER_CLASSDUPEFILTER_CLASS = "scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter"#...原创 2018-05-28 23:37:48 · 3189 阅读 · 1 评论 -
python3 scrapy抓取今日头条视频(西瓜视频)
使用环境:python3scrapywin10爬取步骤(1)从用户视频列表页开始 (2)使用ajax对接接口 (3)获取今日头条视频真实地址(西瓜视频真实地址)备注: 这里的今日头条视频链接是直接跳转到365阳光宽频网的 https://www.365yg.com/ (1)我们要做的目标就是从把某个作者下的视频全部爬取下来。(2)列表页下滑,获取x...原创 2018-07-21 16:07:56 · 12268 阅读 · 6 评论 -
python3 爬取今日头条文章(巧妙避开as,cp,_signature)
使用环境:python3scrapywin10爬取思路(一)关于as、cp的生成与_signature的想法对于今日头条的爬虫,网上搜索出来的文章大多是基于崔庆才(通过搜索爬取美女街拍的方案),怎么说呢,类似这样的虽说是个巧办法,但是用到工作中却是行不通的。在这里,网上是搜了又搜,谷歌,百度都用上了。在这里做一下今日头条爬取文章的几个方案。一个方案是:破解了a...原创 2018-07-21 23:30:54 · 14897 阅读 · 3 评论 -
scrapy xpath解析出现:AttributeError: 'list' object has no attribute 'xpath'
当我们在tbody标签里面取多个tr标签里面的内容时,我们一般都会取出个list集合,然后再进行遍历,获取里面的标签内容。 node_list = response.xpath("//*[@class='list_1']/tr").extract() for node in node_list: paiming = node.xpath("./td[1...原创 2018-10-30 17:25:42 · 38690 阅读 · 5 评论 -
scrapy屏幕log日志输出保存到txt文本中
在使用scrapy框架的时候,因为scrapy在屏幕上面输出的日志一直在跑,有些错误又抓不到,无奈只能先把log日志放在文件中,慢慢进行错误日志的分析。如图所示:我们需要设置的地方只在settings.py文件夹中进行设置就可以了。LOG_LEVEL = 'DEBUG'to_day = datetime.datetime.now()log_file_path = 'log/scrap...原创 2018-10-30 17:46:44 · 7862 阅读 · 1 评论 -
scrapy接入IP代理池(代码部分)
> 记录一个比较完整的通过ip池进行爬虫被禁的处理class HttpProxymiddleware(object): # 一些异常情况汇总 EXCEPTIONS_TO_CHANGE = ( defer.TimeoutError, TimeoutError, ConnectionRefusedError, ConnectError, Connect...原创 2018-04-30 23:59:36 · 4792 阅读 · 1 评论 -
python3 scrapy_redis 分布式爬取房天下存mongodb
(一)scrapy_redis 简单介绍scrapy_redis基于scrapy框架的基础上集成了redis,通过了redis实现了去重,多台服务器进行分布式的爬取数据。(二)scrapy_redis 简单配置(1)settings.py 文件中加入两行代码:#启用Redis调度存储请求队列SCHEDULER = "scrapy_redis.scheduler.Sched...原创 2018-04-30 23:54:15 · 2921 阅读 · 2 评论 -
win下python3 scrapy框架再次搭建
目录:环境初次安装打开网站安装wheel安装whl文件end环境: python3 3.6.4, win7 64位 初次安装: pip install scrapy使用这个命令,在win7 64位是怎么也安装不上去的,因为这已经是第二次了,当这个命令输出完后,会出现一系列的问题。当然了,不用怕,这不是需要解决问题的方法来了嘛原创 2018-01-04 23:35:30 · 672 阅读 · 0 评论 -
scrapy-redis简单配置详解
注意:该篇文章为转载内容,此处只是为了巩固一下scrapy-redis的注意事项,scrapy-redis 现已在公司项目中稳稳当当的运行了,可以查看该篇文章:http://xudailong.gitee.io/2018/01/09/python_crawl_words/由于Scrapy_redis已经为封装了大部分的流程,所以使用它不会有任何难度。1.启动Redis首先需要把...原创 2018-02-10 19:08:13 · 1964 阅读 · 1 评论 -
python3 scrapy爬取微信公众号及历史信息V1.0
环境: python3 scrapy 目的写这篇文章主要是做一下纪念,毕竟是搞了快两天的东西了,今天加大了量,使用scrapy爬取100多个微信公众号,然后出现IP被封的情况下,当然了,这种情况并不是没有办法解决,只需要在scrapy中进行设置一下就可以了,主要是在本地进行调试,然后IP代理池那一块暂时找不到好的质量高的IP,只是爬取了各大网站的免费IP,并没有很...原创 2018-02-26 22:33:26 · 4837 阅读 · 1 评论 -
scrapy DNS lookup failed: no results for hostname lookup
版权声明: 更多最新原创文章请访问:最新原创主页 更多最全原创文章请访问:更多原创主页DNS lookup failed 问题第一天还可以正常跑起来的代码,第二天就跑不起来了。scrapy 中:解决方法:...原创 2018-03-03 18:53:28 · 7972 阅读 · 3 评论 -
Scrapy 存数据到Hbase
网上很多教程都是使用Scrapy存数据到MongoDB,Mysql或者直接存入Excel中的,很少有存入到Hbase里面的前言为什么没有像大多数网上那样将数据存入到MongoDB,Mysql中呢,因为项目中使用到Hbase加上阿里云的推荐引擎系统,Hbase是Hadoop的一个子项目,要想用到Hbase软件的服务,需要进行Hadoop跟zoopeer的环境的安装。这里就不对Hbas...原创 2018-03-17 23:53:39 · 2142 阅读 · 1 评论 -
ThriftPy does not support generating module with path in protocol 'c'
场景在使用happybase 在Windows端读取hbase 的时候,提示“ ThriftPy does not support generating module with path in protocol ‘c’”的错误,在github上查到资料:https://github.com/eleme/thriftpy/issues/234 说是源码在解析url的时候出现的错误,...原创 2018-03-18 00:01:29 · 1370 阅读 · 0 评论 -
Centos7 安装Python3和scrapy(正确安装姿势)
苦逼的前夜昨晚很辛苦,搞到晚上快两点,最后还是没有把python3下的scrapy框架安装起来,后面还把yum这玩意给弄坏了,一直找不到命令。今天早上又自己弄了快一上午,又求助@函兮,弄了快一个中午,最后无奈还是没有弄好yum跟python这玩意,最后还是放弃治疗了。真的是什么招,什么损招都用完了,最后也没折了,直接报告老大去,然后把阿里云的centos7实例重新磁盘回滚了一下。正确的...原创 2018-03-13 22:16:38 · 4453 阅读 · 1 评论 -
Linux下Python3环境安装selenium跟phantomjs
场景因为项目中在爬今日头条的时候,基于破解今日头条的验签跟cp等参数难度大,不得不转向selenium库Linux下安装Selenium 这里主要是记录下在Linux下Python3环境中的selenium与phantomjs的安装,上一篇已经说道在Linux下进行Python3与scrapy框架的安装(一)依赖包安装 sudo yum install build-e...原创 2018-03-24 00:10:46 · 2898 阅读 · 0 评论 -
python3 No module named 'PIL'
在python3,scrapy框架已经安装好的情况下,还是出现了:python3 No module named 'PIL'在Python3下,PIL已经被Pillow替代了,所以只需要安装Pillow就可以了使用命令:pip3 install Pillow 可能中途会一直安装不上去,就跟下图的报红的一样(多半是连接超时),这时候我们需要做的就是多安装几次,用的还是...原创 2018-03-20 23:51:04 · 11367 阅读 · 0 评论 -
python3 scrapy爬取智联招聘存mongodb
写在前面,这次写智联招聘的爬虫是其次,主要的是通过智联招聘上的数据信息弄一个数据挖掘的小项目,这一篇主要是如何一气呵成的将智联招聘上的招聘信息给爬下来(一)scrapy框架的使用scrapy框架是python爬虫里面一个比较出色的框架,支持分布式,里面内部已经实现了从爬取解析到下载的一条龙服务,用这个框架或者是基于这个框架,可以很大程度上避免了一些不必要的bug,当然前提是你需...原创 2018-04-30 21:25:45 · 1632 阅读 · 0 评论 -
scrapy提高爬取速度
scrapy在单机跑大量数据的时候,在对settings文件不进行设置的时候,scrapy的爬取速度很慢,再加上多个页面层级解析,往往导致上万的数据可能爬取要半个小时之久,这还不包括插入数据到数据库的操作。下面是我在实验中测试并且验证爬取速度大幅度提升,不过前提你要注意到你爬取的目标网站有没有反IP的可能。settings文件设置以下参数:DOWNLOAD_DELAY = 0CONCURR...原创 2018-11-06 11:10:58 · 8853 阅读 · 2 评论