
爬虫
小白_橙子
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python + selenium的使用 - mac可能出现的问题
1、安装selenium pip install Selenium 2、下载浏览器驱动(我个人使用chrom,这里针对chrom说明) https://sites.google.com/a/chromium.org/chromedriver/downloads(开启代理) 首先查看对应浏览器的版本,下载对应的驱动 3、下载后进行解压,将其放在mac的 /usr/local/bin/ 目录下即可 4、这时启动文件可能出现问题 PermissionError: [Errno 13] Permissio原创 2020-10-13 10:12:32 · 679 阅读 · 0 评论 -
基础爬虫
基础爬虫 简单爬取网页信息,未进行过滤 代码演示 import urllib.request from fake_useragent import UserAgent import urllib.parse UA = UserAgent() base_url = "https://www.lagou.com/jobs/positionAjax.json?" # 参数为中文需要转码 se_url ...原创 2019-01-05 13:21:51 · 867 阅读 · 0 评论 -
Scrapy框架
Scrapy框架 ***Scrapy***是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy 使用了Twisted['twɪstɪd]异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求,加快开发速度。 原理图 scrapy全局命令 # 创建一个项目 scrapy startprojec...原创 2019-01-18 19:24:23 · 204 阅读 · 0 评论 -
分布式爬虫scrapy-redis
分布式爬虫Scrapy-Redis 分布式爬虫是由一组通过网络进行通信、为了完成共同的爬虫任务而协调工作的计算机节点组成的系统。分布式爬虫是将多台主机组合起来,共同完成一个爬取任务,大大提高爬取效率。 调度器扩展多个,对应的下载器也扩展多个,但是保证爬取的队列是惟一的,也就是共享爬取队列。并且应该要保证,一个调度器调度一个请求以后,其他调度器不会重复调度这个请求。 Scrapy-Redis...原创 2019-01-24 18:49:21 · 342 阅读 · 0 评论 -
scrapy进阶
scrapy进阶 item Item是保存爬取数据的容器,它的使用方法和字典类似。不过,相比字典,Item提供了额外的保护机制,可以避免拼写错误或者定义字段错误 import scrapy class Minimp4SpiderItem(scrapy.Item): # define the fields for your item here like: # 保存的键 ...原创 2019-01-21 12:52:20 · 643 阅读 · 0 评论 -
多线程爬虫
多线程爬虫 全局解释器锁GIL 控制着Python的线程能否得到CPU的计算资源,正是这个锁来控制同一时刻只有一个线程能够运行。 多线程的编码方式可以分为两种:第一种是面向对象式编程,第二种是面向函数式编程。 队列的类型: 先进先出 queue.Queue(maxsize=0) 后进先出 queue.LifoQueue(maxsize=0) 优先队列 queue...原创 2019-01-16 22:32:20 · 2173 阅读 · 0 评论 -
CrawlSpider全网爬虫
CrawlSpider全网爬虫 CrawlSpider是继承了Spider的全站爬虫类。CrawlSpider类定义了一些规则(rule)来提供跟进提取出来的网址link的方便的机制,更适合从爬取的网页中获取新的link并继续爬取的工作。 产生一个crawlspider scrapy genspider -t crawl 爬虫名 LinkExtractors(链接提取器) 在响应中可以使用xp...原创 2019-01-22 17:33:53 · 2098 阅读 · 0 评论 -
IP池设计思考(面试点)
IP池设计思考(面试点) 面试中IP代理池的几个问题: IP怎么剔除的 通过设置失败次数, 超过失败次数就会删除, 可以自定义失败次数. 免费代理多久抓取一次 10min抓取一次, 代码实现可在ProxyRefreshSchedule.py中查看。每过10min就去目标网站抓取一次。有些网站不更新,当然如果是自己买的IP代理不用考虑代理不会更新的情况,因为买的IP数量应该是足够的。 怎...原创 2019-03-10 11:09:00 · 840 阅读 · 0 评论