
scrapy
Vince Li
人生苦短,Python当歌
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapyd远程连接配置
系统:Ubuntu18.04安装scrapyd:pip install scrapydscrapyd启动是可以通过scrapyd命令直接启动,bind绑定的ip地址是127.0.0.1端口是:6800,但是想要其他主机可以访问,需将ip地址设置为0.0.0.0找到如下配置文件scrapyd的配置文件:/usr/local/lib/python3.5/dist-packages/scra...原创 2019-10-22 17:32:00 · 719 阅读 · 0 评论 -
scrapy 序列化写入器 ——ItemExporter
scrapy 序列化写入器Scrapy支持多种序列化格式(serialization format)及存储方式(storage backends)。如果你是想单纯的将数据输出或存入文件,那直接可以用Scrapy提供的现成类。Item Exporters为了使用 Item Exporter,你必须对 Item Exporter 及其参数 (args) 实例化。每个 Item Export...原创 2019-08-05 22:02:19 · 554 阅读 · 0 评论 -
scrapy —— ImagePipeline
ImagePipelineScrapy用ImagesPipeline类提供一种方便的方式来下载和存储图片。主要特征将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤工作流程爬取一个Item,将图片的URLs放入image_urls字段从Spider返回的Item,传递到Item Pipeline当Item传递到ImagePipeline,将调用Sc...原创 2019-08-06 21:00:25 · 2460 阅读 · 0 评论 -
selenium的页面等待
selenium的页面等待这是非常重要的一部分,现在的网页越来越多采用了 Ajax 技术,这样程序便不能确定何时某个元素完全加载出来了。这会让元素定位困难而且会提高产生 ElementNotVisibleException 的概率。所以 Selenium 提供了两种等待方式,一种是隐式等待,一种是显式等待。隐式等待是等待特定的时间,显式等待是指定某一条件直到这个条件成立时继续执行。隐性等待...原创 2019-08-07 21:10:17 · 327 阅读 · 1 评论