
scrapy
文章平均质量分 92
名明鸣冥
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用scrapyd部署scrapy项目
介绍与安装 scrapyd scrapyd是一个服务器,类似于nginx,tomcat,会暴露web接口 , 我们的scrapy爬虫类似作为一个webapp部署进来,然后通过webapi进行开启关闭等操作 安装: pip install scrapyd 我们部署的前提是自己已经有一个scrapy工程了,具体可参考:https://blog.youkuaiyun.com/mingover/articl...原创 2018-07-10 22:46:51 · 2709 阅读 · 0 评论 -
scrapy_demo获取网站信息
前段时间项目使用了scrapy,这里做个简单的demo,使用scrapy抓取下安居客的内容, 关于怎么搭建scrapy的工程,请查看https://blog.youkuaiyun.com/mingover/article/details/80717974 全部源代码: https://github.com/huawumingguo/scrapy_demo 分析安居客页面 是否要登陆? 我们...原创 2018-07-07 14:33:43 · 736 阅读 · 0 评论 -
scrapy管理多个spider,共用settings问题
背景说明 这段时间需要用到scrapy来获取一些数据,其中涉及到多个任务,之间对scrapy不太熟悉,于是一个任务一个scrapy,感觉对复用方面很不友好,于是我们在想,怎么在一个scrapy project中搞多个spider, 这样对各方面的复用会好很多.系统使用了redis,和kafka,代理逻辑, 还有散落在很多代码里的log 一般这种抽象,我会采用策略模式来做,同时兼顾单例,根据fl...原创 2018-07-20 11:29:05 · 6556 阅读 · 1 评论 -
scrapy集成scrapy-redis
背景情况 爬虫由于需要网络请求,一般生产数据都比较慢,如果增加部分浏览器的处理,会更慢, 所以需要增加分布式的处理方案, 比较常见的,是把队列扔到redis中,比较常用的是 scrapy-redis 说明,这里不讲怎么去搭建一个spider,初始内容,请查看 https://blog.youkuaiyun.com/mingover/article/details/80717974 怎么...原创 2018-08-08 19:22:44 · 923 阅读 · 0 评论 -
scrapy获取数据的一些问题与解决
前言 我们采用scrapy 爬取了一些游戏数据,这里对遇到的一些技术问题 的解决情况 项目情况 爬虫的逻辑是比较简单的,有一个进程从 任务队列中 拿到 相应的任务(一般是url),去请求,拿到html/json/…后 进行解析,解析完后自己选择做什么,比如:1,把解析后的数据存起来,2,解析后发现有想用的url,重新把这些个url当作一个任务扔到 任务队列中. 我们的爬虫任务有挺多的,如 游戏的i...原创 2019-09-06 16:32:34 · 1391 阅读 · 0 评论