
爬虫
这个作者很懒...
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多线程爬虫(糗事百科 )
导包 requests、 import requests from threading import Thread from queue import Queue from lxml import etree #使用xpath获取网络数据 url = 'https://www.qiushibaike.com/8hr/page/%d/' # 1.给出爬取网站的url head...原创 2018-09-09 19:50:39 · 268 阅读 · 0 评论 -
相关博客链接
武沛齐爬虫博客 https://www.cnblogs.com/wupeiqi/articles/5354900.html原创 2018-09-17 16:13:21 · 204 阅读 · 0 评论 -
scrapy框架
介绍 Scrapy,通过python语言编写的爬虫框架,非常的强悍 组成:5部分 1.Scrapy Engine(引擎) 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等 2.Scheduler(调度器) 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎 3.Do...原创 2018-09-14 23:00:58 · 178 阅读 · 0 评论 -
爬虫环境部署
Python 3.6.0 环境变量 C:\Users\admin\AppData\Local\Programs\Python\Python36\Scripts C:\Users\admin\AppData\Local\Programs\Python\Python36\ PyCharm 2017.2.4 激活码 server 填 http://idea.liyang.io C:\office\...原创 2018-09-21 09:47:23 · 346 阅读 · 0 评论 -
简单了解scrapy
创建scrapy项目 1.使用终端来创建项目 命令:scrapy startproject baidu 弹出: New Scrapy project 'baidu', using template directory 'c:\\office\\xldoc\\xlvirtualenvs\\testenv\\lib\\site-packages\\scrapy\\templates\\proje...原创 2018-09-21 09:52:58 · 209 阅读 · 0 评论 -
分布式爬虫
1,redis安装 修改配置文件redis-windows-conf bind 127.0.0.1 改为 bind 127.0.0.1 protected-mode yes 改为: #protected-mode yes protected-mode no 2.启动redis C:\office\xlsoft\redi>命令: redis-server.exe redis.windows.c...原创 2018-10-09 16:27:14 · 153 阅读 · 0 评论