
Scrapy
Refrain__WG
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapyd 批量清除pending任务
一、问题由于爬虫报错/生产环境更换等原因造成定时的scrapy任务队列pending 等待的太多(通过http://127.0.0.1:6800/listjobs.json?project=myproject查询到 pending 的爬虫队列竟然有600+....)二、解决方案进入 用户目录下-->dbs 目录,删除 pending 的scrapy项目db文件即可因为 dbs 目录下存储着项目数据(包括爬虫任务队列)如下图(scrapy项目为MyToken, 此...原创 2020-12-28 09:54:24 · 1452 阅读 · 1 评论 -
scrapyd 的安装和启动 (基于Python环境)
1.安装pip install scrapyd2. 修改配置文件--允许外部访问查找scarpyd的配置文件: find / -name default_scrapyd.conf打开配置文件: vi default_scrapyd.conf修改文件保存退出: 将 bind_address=127.0.0.1 --> ...原创 2019-03-04 16:12:53 · 872 阅读 · 0 评论 -
scrapy telnet 监测爬虫运行和性能问题
1. 安装 telnetMac 系统: brew install telnet其他 系统:略2. 运行scrapy爬虫scrapy crawl your_spider3. telnet 监测爬虫运行telnet localhost 6023 est ( ): 查看爬虫引擎各组件的运行状态 p(stats.get_stats()) :查看爬虫已经运行的各项指标...原创 2019-01-08 14:34:33 · 1864 阅读 · 1 评论 -
win10系统环境下scrapy出现的问题及解决办法
1. 报错:ModuleNotFoundError: No module named 'win32api'原因:这是因为Python没有自带访问windows系统API的库的,方法:需要下载第三方库 pypiwin32,即 pip install pypiwin32 . 2. 中文输出乱码原因:scrapy m=默认是 utf-8编码,windows系统默认 gbk编码。...原创 2018-12-17 14:41:05 · 584 阅读 · 0 评论 -
python 操作 selenium 详解
页面加载等待 一. 隐式等待Selenium 没有在 DOM 中找到节点,将继续等待,超出设定时间后,则抛出找不到节点的异常。from selenium import webdriverbrowser = webdriver.Chrome()# 设置 隐式等待browser.implicitly_wait (10)browser.get(’https://www...原创 2018-12-17 14:24:10 · 418 阅读 · 0 评论 -
scrapyd 常用部署命令 & 远程监控 & 爬虫脚本
一. 部署&运行deploy: 部署scrapy爬虫程序# scrapyd-deploy 部署服务器名 -p 项目名称scrapyd-deploy ubuntu -p douyurun : 运行#curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_nam...原创 2018-11-08 12:06:20 · 762 阅读 · 0 评论 -
mac 编写sh脚本部署服务器报错:syntax error: unexpected end of file / $‘\r‘:command not found
一. 报错描述sh脚本:sh脚本报错:报错一: no active project\n\nUnknown(scrapy_env) [aaa@bbb106 FFF]$ sh run_base.sh run_base.sh: line 2: $'\r': command not found{"node_name": "bbb106.abc.cn", "status": "er...原创 2018-10-09 13:57:59 · 1413 阅读 · 0 评论 -
Scrapy爬虫 -- ImagePipeline 实现图片自动下载
Scrapy爬虫 -- ImagePipeline 实现图片自动下载一.ImagesPipeline的工作流程1. 首先在爬虫项目中获取图片的image_urls;2.item[‘image_urls’]进入管道中,当项目进入 ImagesPipeline,image_urls 组内的URLs将被Scrapy的调度器和下载器(这意味着调度器和下载器的中间件可以复用)安排下载;3...原创 2019-05-28 13:31:35 · 571 阅读 · 0 评论 -
Scrapy爬虫 -- 编写下载中间件,实现随机User-Agent
Scrapy爬虫 -- 编写下载中间件,实现随机User-Agent实现步骤:1. 在middlewares.p中,新建一个下载中间件;2. 创建process_request方法(引擎发送request对象到下载器时的回调函数),实现随机User-Agent的功能;3. 在settings.py文件中,配置新建的下载中间件。 实现随机User-Agent的...原创 2018-09-03 12:26:43 · 521 阅读 · 0 评论 -
BUG:pymongo.errors.DuplicateKeyError: E11000 duplicate key error collection的原因和解决方案
BUG:pymongo.errors.DuplicateKeyError: E11000 duplicate key error collection的原因和解决方案一. BUG描述:使用Scrapy把数据添加到mongodb时,无法添加,抛出异常如下:pymongo.errors.DuplicateKeyError: E11000 duplicate key error collec...原创 2018-09-01 16:10:55 · 10734 阅读 · 1 评论