爬虫小记第一步【爬虫】【多线程】【python】

9 篇文章 ¥19.90 ¥99.00
本文介绍了作者从单线程爬虫转向Python多线程爬虫的原因,分享了一个简单的多线程爬虫框架,利用Queue进行URL管理和结果存储,通过多个线程处理网络请求并保存数据。文中还提及了线程间的同步问题,并展示了部分代码片段。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

起因:

之前做JAVA的时候,我一般都拿Jsoup来写爬虫,后来做Python的时候,一般是UrlLib Request+BS4 或者 Selenium来做爬虫,用这种方法,可以很轻松的抓到数据【但数据比较局限在简单的形式,比如 不能适应AJAX,不能有JS操作(Selenium等仿真模拟器的方法是可以做的)】

就这样通过简单的爬虫,我抓了一年又一年的数据,直到前段时间要抓海量JD数据的时候,头疼了,通过Request+BS4效率实在有点低,抓100万文本数据,1G左右的内容,耗时竟然达到50+小时,当然可能也和频繁的读写有关系。于是想要学习一下,多线程爬虫和分布式爬虫。之前在做C#开发桌面程序的时候,经常写多线程,因为毕竟子线程没办法控制UI界面刷新,这次来试试Python的多线程爬虫。

 

这是之前写的单线程爬虫的抓取。


一个爬虫的简单框架

一个简单的爬虫框架,主要就是处理网络请求,Scrapy使用的是Twisted(一个事件驱动网络框架,以非阻塞的方式对网络I/O进行异步处理),这里不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南七小僧

打赏后,可以添加微信一对一咨询

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值