
Python
过油手套
Python,Java,Linux
展开
-
pyppeteer-配置及常见问题
官方文档https://miyakogi.github.io/pyppeteer/reference.html读取 option # options是dict类型, 初始化时使用 await launch(self.options)options 选项 # 是否忽略https错误, 默认为False ignoreHTTPSErrors ...原创 2019-12-06 10:41:04 · 1636 阅读 · 0 评论 -
pyppeteer-安装及简单命令
官方文档https://miyakogi.github.io/pyppeteer/reference.html安装# 需要 pyppeteer.chromium_downloaderpip install websockets==7.0# 默认安装driver路径C:\Users\xxx\AppData\Local\pyppeteer\pyppeteer\local-chromi...原创 2019-12-06 10:36:31 · 1859 阅读 · 0 评论 -
分布式爬虫 01-综述
分布式爬虫爬虫,即模拟网络请求,获得目标页面数据的一种方式。简单的爬虫,比如单线程爬虫,一个爬虫处理所有内容:拿到任务,发起请求,处理反爬,解析内容,入库。但效率低下,为了加快速度,可以使用多线程,多进程爬虫,相当于多个爬虫,每个爬虫除了任务可能不同,其他的过程从请求到入库全部一样。速度可以较大幅度的获得提升,但速度提升是有限的。并且这种单个线程或进程进行的一条龙式的运行,本身并不是最合理...原创 2019-03-16 16:40:22 · 212 阅读 · 0 评论 -
关于代理 01-综述
为什么需要代理之所以使用代理,可能是因为:1.加速访问速度;2.隐藏主机真实ip简单的说,网络通信需要ip地址,ip地址提供主机在网络中的位置,而公共网络ip地址具有唯一性。ip可以理解为主机的门牌号,要保证网络信息的快递顺利送达,必须保证门牌号的唯一性。而就因为是具有唯一性的,所以直接访问对方站点,对方会被明确的告知(写在请求头中)源地址。网络爬虫往往并不能告知对方自己的ip,因为站...原创 2019-04-14 13:03:29 · 125 阅读 · 0 评论 -
分布式爬虫 02-爬虫管理
scrapy是一个成熟的框架,便于编写,易于扩展。但本身并不支持分布式,可使用scrapy-redis组件进行分布式抓取,简单的说,利用redis作为任务队列,scrapy作为worker,多个worker从一个队列中获取任务,进行抓取,解析,清洗,并入库。但多个worker往往分布在各个服务器上,不便于统一管理以及监控。此时可以使用scrapyd,进行简单的管理。 如果采用...原创 2019-06-05 00:13:19 · 580 阅读 · 0 评论 -
python 01- 路径和__init__.py文件
1.__init__.py文件 __init__.py文件标识该目录是一个python的包,会被python识别为model package,可导入其模块和函数 当直接导入一个包,会执行__init__.py文件 __init__.py文件也可用于定义函数或声明变量,当前包内的其他模块可使用from . import variable,variable即在__init...原创 2019-09-17 13:57:59 · 1283 阅读 · 0 评论