爬虫—生产者模式、消费者模式、多线程、队列应用综合案例

最新推荐文章于 2023-07-13 09:26:07 发布

原创

最新推荐文章于 2023-07-13 09:26:07 发布 · 252 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

本文以汽车之家几款车型图片爬取下载为例：

一、分析准备：

1.导入网页请求模块: requests

2.导入解析模块:from lxml import etree

3.导入线程模块:import threading

4. 导入队列模块:from queue import Queue；用于多个线程之间共享数据

5.导入网页请求、下载模块：from urllib import request

6.文件写入模块：os

7.定义一个自己的线程类

8.定义一个生产者类，用于封装获取想要下载内容的方法

9.定义一个消费者类，用于封装下载图片方法

二、源码展示如下：

import requests             # 导入网页请求模块
from lxml import etree      # 导入解析模块
import threading            # 导入线程模块
from queue import Queue     # 导入队列模块
import time
from urllib import request  #

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

continue_v

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫编程思想（141）：多线程和多进程爬虫--生产者-消费者问题与queue模块

一个被知识诅咒的人

03-31

4411

本文使用线程锁以及队列来模拟一个典型的案例：生成者-消费者模型。在这个场景下，商品或服务的生产者生成商品，然后将其放到类似队列的数据结构中，生产商品的时间是不确定的，同样消费者消费生产者生产的商品的时间也是不确定的。

python爬虫进阶之多线程爬虫——生产者和消费者

Python进阶专栏《爬虫实战进阶》，《Pyppeteer从入门到精通》原创作者

05-27

402

顾名思义，生产者负责生成数据，消费者负责消费数据。废话不多说，一起进入正题。 1.生产者（生产url） import threading import requests from lxml import etree import queue # 队列 # 生成网址 def prepareUrlQueue(): urlQueue = queue.Queue() base_url = 'http://www.moumouXXXXXXpage={}.com' # 网页是随意举个例

参与评论您还未登录，请先登录后发表或查看评论

Python生产者消费者多线程爬虫

weixin_44532250的博客

02-10

909

Pipeline技术架构常用语法 1.导入类库 import queue 2.创建Queue对象 q = queue.Queue() 3.添加元素 q.put(item) 4.获取元素 item = q.get() 5.查询状态 #查看元素的状态 q.qsize() #判断是否为空 q.empty() # 判断是否已满 q.full() #生产者消费者爬虫架构 #多线程数据通信queue.Queue #代码实现生产者消费者爬虫 ...

汽车之家爬虫(autohome)

半吊子python全栈

08-23

7513

项目的请求url类型https://k.autohome.com.cn/detail/view_01cezq86y568r3ad1m6ws00000.html?st=4&piap=0|3170|0|0|1|0|0|0|0|0|1#pvareaid=2112108 以前有写过汽车之家的爬虫，但是有一段时间没有爬了，所以网站也更新了。现在2018.8.23号的情况是这样，请求...

python 生产者和消费者模式_Python爬虫：生产者和消费者模式

weixin_39664696的博客

12-03

289

认识生产者和消费者模式生产者和消费者是多线程中很常见的一个问题。产生数据的模块，我们称之为生产者，而处理数据的模块，就称为消费者。但是单单只有生产者和消费者显然还是不够的，一般来说，我们还有一个缓冲区，抽象出来的流程如下图所示。将这个过程以实际例子来说明：假如我们是一个生产辣条的厂家，我们生产出来的辣条肯定是一箱一箱地放在仓库里面，然后卖出去给消费者。【不再考虑经销商环节】1.我们把一箱一箱的辣条...

【每日爬虫】：生产者与消费者模式爬取王者荣耀壁纸

12-21

在多线程编程中，生产者与消费者模式是一种经典的并发设计模式，用于处理生产者（数据生成者）和消费者（数据使用者）之间的同步问题。在本文中，我们将深入探讨这一模式，并结合爬虫技术，以爬取王者荣耀壁纸为例，...

python queue 生产者 消费者_Python 队列queue与多线程组合（生产者+消费者模式）

weixin_35591093的博客

01-28

529

在线程世界⾥，⽣产者就是⽣产数据的线程，消费者就是消费数据的线程。在多线程开发当中，如果⽣产者处理速度很快，⽽消费者处理速度很慢，那么⽣产者就必须等待消费者处理完，才能继续⽣产数据。同样的道理，如果消费者的处理能⼒⼤于⽣产者，那么消费者就必须等待⽣产者。为了解决这个问题于是引⼊了⽣产者和消费者模式。⽣产者消费者模式是通过⼀个容器来解决⽣产者和消费者的强耦合问题。⽣产者和消费者彼此之间不直接通讯，⽽...

理解生产者消费者模型及在Python编程中的运用实例

09-21

生产者消费者模型在实际开发中有广泛的应用场景，尤其是在多线程或并发环境下。例如，在编写爬虫程序时，生产者可以用来产生URL链接，消费者则负责获取URL数据。通过使用队列来协调生产者和消费者的工作，可以有效...

在Python网络爬虫程序中使用生产者消费者模式爬取数据

热门推荐

hubing_hust的专栏

12-17

1万+

本文介绍了在python网络爬虫程序中如何使用生产者与消费者模式进行数据爬取： 1. 生产者与消费者模式 2. 队列Queue与进程间通信 3. 在Python网络爬虫程序中使用队列进行进程间通信

Python rabbitMQ如何实现生产消费者模式

09-16

主要介绍了Python rabbitMQ如何实现生产消费者模式,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

爬虫之生产者和消费者

weixin_45160228的博客

02-19

374

利用生产者和消费者爬取数据 from queue import Queue from selenium import webdriver from lxml import etree import threading ''' 生产者生产每一页的html页面，也就是生产者负责请求---class Producter 消费者消费html，解析---class Consumer 缓冲区：队列来做 '''...

爬虫-----生产者与消费者模式（含源码）

m0_71494659的博客

07-13

248

当我们引入多线程爬取内容时，难免会出现资源竞争的问题，而我们解决这个问题的方法就是能不能让一个线程去访问这个资源，而其他的等待这个资源访问。相当于你去公共测试上厕所，现在有5个位置都有人，只要有一个位置的人出来你就能接上。这个5个位置相当于5个线程，而你就相当于此时线程完成的任务。

【爬虫教程】生产者消费者模式06

gecko

02-20

220

acquire release wait：将当前线程处于等待状态并且释放锁，可以被其他线程使用notify和notify_all函数唤醒，会继续等待上锁，上锁后继续执行代码。 notify：通知正在等待的线程，默认时第一个等待的线程 notify_all：通知所有正在等待的线程，notify和notify_all不会释放锁，并且在release之前调用这两个函数只会去通知，但不会...

爬虫（六十七）生产者消费者模式（五十八）

人生代码 ---- 公众号

02-29

946

利用多线程和队列可以实现生产者消费者模式。该模式通过平衡生产线程和消费线程的工作能力来提高程序整体处理数据的速度。什么是生产者和消费者？在线程世界里，生产者就是生产数据（或者说发布任务）...

web爬虫第四弹 - 生产者与消费者模型（python）

优快云_Xying的博客

07-05

1242

生产者消费者简单的实际场景

Python网络爬虫3 - 生产者消费者模型爬取某金融网站数据

weixin_33781606的博客

05-01

469

博客首发于www.litreily.top 应一位金融圈的朋友所托，帮忙写个爬虫，帮他爬取中国期货行业协议网站中所有金融机构的从业人员信息。网站数据的获取本身比较简单，但是为了学习一些新的爬虫方法和技巧，即本文要讲述的生产者消费者模型，我又学习了一下Python中队列库queue及线程库Thread的使用方法。 生产者消费者模型 生产者消费者模型非常简单，相信大部分程序员都知道，就是一方作为生产者...

第五章：爬虫进阶-condition 版本的生产者与消费者模式

weixin_43597208的博客

04-06

201

直接学习：https://edu.youkuaiyun.com/course/play/24756/284632 condition 版本的生产者与消费者模式： Lock版本的生产者与消费者模式的一个弊端是在消费者中，总是通过while true死循环并且上锁的方式去判断钱够不够。频繁上锁很耗CPU资源。condition 版本的生产者与消费者模式解决了以上弊端，它通过threading.Condition来...

python3爬虫学习之生产者消费者爬取实战

s_kangkang_A的博客

04-11

745

按照课程做了个生产者消费者爬取的实战，下载图片先上代码 import threading import requests from lxml import etree import os from urllib import request from queue import Queue class Producer(threading.Thread): headers = { ...