Python爬虫学习笔记

本文介绍了Scrapy爬虫框架的基本概念、结构和组件,包括Spider、Scheduler、Downloader、Engine和Pipelines等。讲解了框架的特点和优势,并提供了安装步骤,特别提示了Windows用户需要注意的依赖库和wheel包的安装。最后,通过实际操作演示了如何创建和运行第一个Scrapy爬虫项目。

爬虫框架之scrapy
1,什么是框架
2,爬虫框架scrapy结构
3,scrapy框架组件说明
4,scrapy框架安装与坑
5,使用框架创建第一个爬虫

前言
1,本课需要你对类、面向对象编程有一定的了解,包含对象,继承,重写
2,对生成器有一定了解
3,并非爬虫必修课,没有框架也可以爬
4,框架是从业务对高复用代码的封装
5,工业级产物,类似我们从沟通靠喊到OA协同办公
6,需要在管理层面和可持续性维护的层面来看待框架

什么是框架
框架(Framework)是构成一类特定软件可复用设计的一组相互协作的类。框架规定了你的应用的体系结构。它定义了整体结构,类和对象的分割,各部分的主要
责任,类别和对象怎么协作,以及控制流程。框架预定义了这些设计参数,以便于应用设计者或实现者能集中精力与应用本身的特定细节

框架特点:
1,框架是工作单元是一个工程文件组,并非一个或多个PY文件
2,框架内部已经对特定功能基于业务需求进行了封装(例如random,randint)
3,框架本身会组织,协调内部的工作流程,这个有别于我们常规的理解
4,框架通常由多个模块组成,每个模块有具体的任务或功能
5,框架其实就是一个项目模板或者说写作大纲
6,框架的执行效率通常高于普通硬编码(对输入输出都有优化)

框架很像一条流水线,每个单元只要把自己的活干好了即可。这条流水线可以生产汽车,可以生产口罩

爬虫框架scrapy结构
爬虫器:Spider 请求发起 数据解析
管道: Items/Pipelines 数据持久化保存
调度器:Scheduler 任务存储 任务执行调度
下载器:Downloader 执行请求或下载动作
主引擎:ENGINE

scrapy框架组件
Engine(引擎):负责Spider,ItemPipline,Downloader,Scheduler中间的通讯,信号,数据传递以及流程控制

Scheduler(调度器):负责接受引擎发送来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎

Downloader(下载器):负责下载Scrapy Engine发送的所有Requests请求,并将其获取到的Responses交给Scrapy Engine,由引擎交给Spider来处理。

Spider(爬虫):负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler。

Item Pipelines(管道):负责处理Spider中获取到的Item,并进行后期处理(详细分析,过滤,存储器)的地方

Dowmlodaer Middlewares(下载中间件):可以当做是一个可以自定义扩展下载功能的组件。

Spider Middlewares(Spider中间件):可理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

scrapy框架安装与坑
scrapy需要C++的依赖库,python提供了一个wheel包,根据不同的库需要的wheel包进行下载
下载网站:http://www.Ifd.uci.edu/~gohlke/pythonlibs/
windows用户注意:
1,pip install wheel
2,pip install pywin32
3,pip install Twisted-20.30-cp37m-win amd64.whl(按需安装,先下载)
4,pip install scrapy
wheel包的存放位置:放哪都行,建议放在Scripts目录下
安装后测试
命令行,交互模式下,import scrapy,运行后没有报错
纯命令行,执行:scrapy-h,运行后没有报错

如何使用scrapy框架
创建项目 scrapy startproject mySpiderProject (注意:这个在命令行完成)
创建完成后,有一个mySpiderProject文件
生成工程文件:
创建爬虫文件:scrapy genspider theSpider www.baidu.com(命令行完成)
执行爬虫 scrapy crawl theSpider(命令行完成)

好了我去实战一下试试。
课程笔记2021年12月15日

【完美复现】面向配电网韧性提升的移动储能预布局与动态调度策略【IEEE33节点】(Matlab代码实现)内容概要:本文介绍了基于IEEE33节点的配电网韧性提升方法,重点研究了移动储能系统的预布局与动态调度策略。通过Matlab代码实现,提出了一种结合预配置和动态调度的两阶段优化模型,旨在应对电网故障或极端事件时快速恢复供电能力。文中采用了多种智能优化算法(如PSO、MPSO、TACPSO、SOA、GA等)进行对比分析,验证所提策略的有效性和优越性。研究不仅关注移动储能单元的初始部署位置,还深入探讨其在故障发生后的动态路径规划与电力支援过程,从而全面提升配电网的韧性水平。; 适合人群:具备电力系统基础知识和Matlab编程能力的研究生、科研人员及从事智能电网、能源系统优化等相关领域的工程技术人员。; 使用场景及目标:①用于科研复现,特别是IEEE顶刊或SCI一区论文中关于配电网韧性、应急电源调度的研究;②支撑电力系统在灾害或故障条件下的恢复力优化设计,提升实际电网应对突发事件的能力;③为移动储能系统在智能配电网中的应用提供理论依据和技术支持。; 阅读建议:建议读者结合提供的Matlab代码逐模块分析,重点关注目标函数建模、约束条件设置以及智能算法的实现细节。同时推荐参考文中提及的MPS预配置与动态调度上下两部分,系统掌握完整的技术路线,并可通过替换不同算法或测试系统进一步拓展研究。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值