2021/5/30爬虫第五次周复盘

本文探讨了并发执行和并行执行的区别,介绍了线程操作、资源竞争与死锁解决方案,重点讲解了queue在多线程中的应用,并结合Scrapy框架优化爬虫性能。通过实例演示如何在Scrapy中爬取豆瓣电影标题。

一、并发执行和并行执行

并发执行和并行执行

二、线程的操作

threading.enumerate()#Return a list of all Thread objects currently alive
#以列表形式返回存在的线程对象

Thread.setDaemon(true)

三、多线程开发中的BUG

  1. 资源竞争:一个线程写入,一个线程读取,没问题,如果两个线程都写入呢?,这时很容易发生资源竞争现象
  2. 阻塞:正在运行的进程由于提出系统服务请求(如I/O操作),但因为某种原因未得到操作系统的立即响应,或者需要从其他合作进程获得的数据尚未到达等原因,该进程只能调用阻塞原语把自己阻塞,等待相应的事件出现后才被唤醒。
  3. 死锁:死锁是指两个或两个以上的进程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程。(由于锁操作不当造成)

解决1、2:

  • time.sleep
  • t1.join
  • 正确加锁

若线程开的太多:
会造成JSONDecodeError报错
原因是爬的速度太快,页面没有及时返回

python多线程详解(超详细)

四、queue队列

Python多线程和队列结合demo

五、线程中主线程与子线程之间的关系

线程的生命周期:创建、执行、结束
守护线程的运用场景:如果希望子线程一直运行(类似于后台运行),可以把子线程的代码写在while True里面一直循环,但同时要设置为守护线程,不然主线程结束了,子线程还一直运行,程序结束不了。

1、最常见的情况,主线程中开启了一个子线程,开启之后,主线程与子线程互不影响各自的生命周期,即主线程结束,子线程还可以继续执行;子线程结束,主线程也能继续执行。
2、主线程开启了子线程,但是主线程结束,子线程也随之结束
这里使用了Thread.setDaemon(true)方法
3、主线程开启了一个子线程,主线程必须要等子线程运行完之后,才能结束主线程
这里使用了join()方法,让主线程等待子线程结束,然后主线程继续执行。这里join()方法必须要在子线程启动之后,再调用。

六、Scrapy框架(让我们的爬虫更快更强大)

回顾之前学的爬虫技术:(快)
requests(html)—>selenium(完全模拟人的行为)—>运用多线程—>Scrapy框架
解析技术:(强)
正则,xpath,bs4,selenium自带的一些解析技术
存储技术:(强)
csv,queue,Scrapy封装的一些存储技术

目标url:https://www.douban.com/
爬取的内容 标题
​
第一步 先创建scrapy项目 (dos命令行 pycharm终端)
首先要cd到目标文件夹下
scrapy startproject mySpider(scrapy项目的名称)
​
第二步 创建爬虫程序
baidu.com  douban.com
scrapy genspider demo "demo.cn" (demo是你爬虫的名字 demo.cn 爬取的范围/域名)
​
第三步 运行scrapy的命令
1 在终端 scrapy crawl 爬虫名字(demo)
2 可以运行py文件
我们先创建一个py文件(在项目下)
from scrapy import cmdline
cmdline.execute('scrapy crawl demo'.split())
cmdline.execute(['scrapy','crawl','demo'])

七、小补充

timeout是一个命令行实用程序,它运行指定的命令,如果在给定的时间段后仍在运行,则终止该命令。

计及风电并网运行的微电网及集群电动汽车综合需求侧响应的优化调度策略研究(Matlab代码实现)内容概要:本文研究了计及风电并网运行的微电网及集群电动汽车综合需求侧响应的优化调度策略,并提供了基于Matlab的代码实现。研究聚焦于在高渗透率可再生能源接入背景下,如何协调微电网内部分布式电源、储能系统与大规模电动汽车充电负荷之间的互动关系,通过引入需求侧响应机制,建立多目标优化调度模型,实现系统运行成本最小化、可再生能源消纳最大化以及电网负荷曲线的削峰填谷。文中详细阐述了风电出力不确定性处理、电动汽车集群充放电行为建模、电价型与激励型需求响应机制设计以及优化求解算法的应用。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的研究生、科研人员及从事新能源、微电网、电动汽车等领域技术研发的工程师。; 使用场景及目标:①用于复现相关硕士论文研究成果,深入理解含高比例风电的微电网优化调度建模方法;②为开展电动汽车参与电网互动(V2G)、需求侧响应等课题提供仿真平台和技术参考;③适用于电力系统优化、能源互联网、综合能源系统等相关领域的教学与科研项目开发。; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注模型构建逻辑与算法实现细节,同时可参考文档中提及的其他相关案例(如储能优化、负荷预测等),以拓宽研究视野并促进交叉创新。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笔记本IT

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值