
爬虫
慢慢慢时光
座右铭:think more, code more
联系邮箱:wjl31802@126.com
展开
-
scrapy分布式碰到的一些问题和解决方案
1. scrapy多个items类piplines如何分别存储见简书,用if isinstance(item, items.py里面的类)进行判断就可以了。2. Linux安装Scrapylinux: ubuntu16.04-64bitpython: 3.5.22.1 安装环境sudo apt-get install build-essentialsudo apt-get insta...原创 2018-11-10 06:00:39 · 1585 阅读 · 0 评论 -
爬虫趣事
1. 验证码用到tesseract,但没有python3.7版本的tesserocr,无奈之下找到pytesseract,使用过程出现波折,参考博客https://segmentfault.com/a/1190000014091417里面的方法,环境变量也修改了,还是报错,最后发现是config没整好,在代码中添加变量参数如下,结果就识别了,再看看pytesseract的代码,修改了下博客中提到的...原创 2018-10-11 16:02:33 · 308 阅读 · 0 评论 -
scrapy基础命令
默认的Scrapy项目结构所有的Scrapy项目默认有类似于下边的文件结构:scrapy.cfgmyproject/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py spider1.py spider2.py ...翻译 2018-10-07 23:53:26 · 547 阅读 · 0 评论 -
python爬虫之scrapy
scrapy安装在windows下,在dos中运行pip install Scrapy报错采用pip安装,安装时可能会出现安装错误Microsoft Visual C++ 14.0 is required,解决方案http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件(如我的Twisted‑1...转载 2018-09-16 09:12:33 · 7268 阅读 · 1 评论 -
爬虫相关tips
登录注册等涉及表单提交的需要在表单中找相关信息,以人人网为例,url在form的action里面data={ 'name': xxx, 'password': xxx}rkey如果在elements里面搜索不到,就在全部文件里搜,post和抓包的注意事项...原创 2018-11-15 19:00:01 · 251 阅读 · 0 评论 -
码上行动1.1
像读文献一样,读好的代码爬虫学了一段时间,进步很慢,感觉很重要的原因是只看视频,模仿学写代码,时间稍长就忘了,书读百遍其义自见,希望能通过本次行动,每天坚持读代码,让自己的理解上一层台阶。百度贴吧的抓取# coding=utf-8import requestsclass TiebaSpider: def __init__(self, tieba_name): ...原创 2018-11-16 09:46:30 · 712 阅读 · 0 评论 -
码上行动1.2 scrapy
像读文献一样,读好的代码文章目录tutorialstart.pytotorialspidersitems.pypipelines.pysettings.pyimages360spideritems.pypipelines.pysettings.pyscrapyselenium淘宝start.pyspiderspipelines.pyitems.pymiddlewares.pyscrapyu...原创 2018-11-16 10:13:34 · 311 阅读 · 0 评论 -
码上行动2.1
像读文献一样,读好的代码文章目录豆瓣电影spider.pyREADME.md电影天堂中国天气网古诗文网线程进程协程应用asyniccoroutine.py多线程thread多线程demo2进程锁生产者-消费者模式队列斗图斗图协程README.mdscrapy糗事百科start.pyqsbk_spider.pyitems.pypipelines.py宝马5系start.pyspidersb...原创 2018-11-16 18:38:57 · 464 阅读 · 0 评论 -
代理池的构建
一、为什么要构建代理池?许多网站都有专门的反爬虫措施,可能会遇到封IP的问题互联网上公开大量的免费代理资源,可以利用通过定时的检测维护,同样可以得到好用的代理二、代理池的要求多站抓取、异步检测定时筛选、持续更新提供接口,易于获取三、代理池的架构获取模块定时从各代理网站抓取,固定格式,之后将可用代理保存到数据库存储模块用redis的有序集合,要求代理不重复、标识代理可用情...原创 2018-11-17 20:41:03 · 1063 阅读 · 0 评论