爬虫小记第一步【爬虫】【多线程】【python】

最新推荐文章于 2024-01-17 16:35:13 发布

南七小僧

最新推荐文章于 2024-01-17 16:35:13 发布

阅读量278

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫多线程python 队列 Python 大数据

我是南七小僧，邮箱：xkk9866@yeah.net ，C9博士，前百度搜索AI平台产品负责人，欢迎交流思想碰撞。

本文链接：https://blog.youkuaiyun.com/qq_25439417/article/details/82494951

Python 同时被 3 个专栏收录

39 篇文章 ¥19.90 ¥99.00

订阅专栏

9 篇文章 ¥19.90 ¥99.00

订阅专栏

7 篇文章

订阅专栏

本文介绍了作者从单线程爬虫转向Python多线程爬虫的原因，分享了一个简单的多线程爬虫框架，利用Queue进行URL管理和结果存储，通过多个线程处理网络请求并保存数据。文中还提及了线程间的同步问题，并展示了部分代码片段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

起因：

之前做JAVA的时候，我一般都拿Jsoup来写爬虫，后来做Python的时候，一般是UrlLib Request+BS4 或者 Selenium来做爬虫，用这种方法，可以很轻松的抓到数据【但数据比较局限在简单的形式，比如不能适应AJAX，不能有JS操作（Selenium等仿真模拟器的方法是可以做的）】

就这样通过简单的爬虫，我抓了一年又一年的数据，直到前段时间要抓海量JD数据的时候，头疼了，通过Request+BS4效率实在有点低，抓100万文本数据，1G左右的内容，耗时竟然达到50+小时，当然可能也和频繁的读写有关系。于是想要学习一下，多线程爬虫和分布式爬虫。之前在做C#开发桌面程序的时候，经常写多线程，因为毕竟子线程没办法控制UI界面刷新，这次来试试Python的多线程爬虫。

这是之前写的单线程爬虫的抓取。

一个爬虫的简单框架

一个简单的爬虫框架，主要就是处理网络请求，Scrapy使用的是Twisted（一个事件驱动网络框架，以非阻塞的方式对网络I/O进行异步处理），这里不

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

南七小僧 打赏后，可以添加微信一对一咨询

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。