用python写的多线程网页爬虫

本文介绍了一个使用Python编写的壁纸下载爬虫程序。该程序利用HTMLParser模块解析网页,并采用多线程技术加速图片抓取。通过50个线程进行地址分析及100个线程下载图片,实现了高效快速的数据获取。

        学习python才一个星期,学了简单的语法之后,发现python太好用了,一个简单的爬取网页方法仅仅只需要两三行代码。当然,要做一只大型的真正意义上的爬虫还是相当有难度的,为了进一步的熟悉python的一些性质,于是写了一个下载http://desk.zol.com.cn上面壁纸的爬虫,其中使用了HTMLParser模块方法分析页面,从而解析出每一页的入口地址,再根据入口地址分析内页的图片地址,解析内页地址使用了多线程,下载图片也是用的多线程,为了测试多线程爬虫的性能,本程序使用了50个线程分析内页图片地址,100个线程下载图片,整个过程只需要动几下鼠标,分分钟美女图片想要多少有多少,最后记录一下大致数据:

下载图片数量:1000张左右

线程使用:50个线程分析地址+100个线程下载图片+1个主线程

下载耗时:15分钟左右

下载速度:67张/分

平均网速:1M/s

上面只是大致数据,但是使用多线程之后,下载速度确实提高了数倍。好了,闲话少说,下面上酸菜:

源码下载地址:http://download.youkuaiyun.com/detail/u010101067/8370785

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值