
scrapy
文章平均质量分 53
杉杉锅锅
这个作者很懒,什么都没留下…
展开
-
【无标题】
scrapy 使用技巧 1、中间键等级相同的情况下,优先调用自定义中间件 关于重定向: 1、可以设置handle_httpstatus_list参数用以过滤需要重定向的响应码或直接设置不要重定向 class RedirectMiddleware(BaseRedirectMiddleware): """ Handle redirection of requests based on response status and meta-refresh html tag. """原创 2021-12-10 16:54:49 · 1488 阅读 · 0 评论 -
scrapyd / gerapy 异常集合
先说版本 Scrapy 1.5.0 scrapyd 1.2.1 gerapy 0.9.7 不知道是啥原因部署起来遇到好几个问题,记录一下 项目部署异常 str 异常信息: 然后尝试用scrapyd部署项目也抛了这个异常 搜了一下还真有遇到相同问题的(https://www.pianshen.com/article/98501050648/) 原因: 在这个utils下 140行处 tmp = out.decode('utf-8').splitlines() 改为 if isinst原创 2021-12-01 17:44:29 · 1200 阅读 · 0 评论 -
scrapy爬虫框架概览【基础使用】
Scrapy框架 架构 Engine - 引擎:处理数据流、触发事务。 item - 项目:数据结构,类。 Schedul - 调度器:处理请求队列。 Download - 下载器:请求。 Spiders - 蜘蛛:爬取逻辑和网页解析规则。 item Pipeline - 项目管道:处理结果数据,清洗入库等。 Downloader Midddlewares - 下载器中间件 Spider Midddlewares - 蜘蛛中间件 数据流 命令行调用 子项目 Engine找到对应的Spider,并获取原创 2021-12-14 10:31:51 · 590 阅读 · 0 评论 -
scrapy初练
创建项目 scrapy startproject {name} 创建一个子目录scrapyname 并包含一些基本文件 item 定义爬取对象,字段 middlewares 包含cookies 代理ip等的设置的中间件 piplines 返回item类型对象后再piplines对item数据处理 setting 日志级别,是否遵守robots协议等一些参数的设置 生成了一个name目录 再name目录下创建一个spider scrapy genspider {name} {domain} ...原创 2020-12-17 13:08:40 · 100 阅读 · 0 评论