【原创】python spider …

本文探讨了在爬取新浪微博数据过程中遇到的验证码问题,并分享了一种通过控制翻页时间来减少验证码出现频率的方法。
爬取新浪微博的数据,验证码是个问题,很痛苦,又没钱找外包验证码团队,又没技术搞定新浪或者腾讯的验证码,于是乎,费了多少功夫不用说了,只能估模测试搜索限制,愁人。关键代码如下:
import time
#... You Code
import random
n = random.choice([1,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,10]) #从列表中选择随机数
print 'while sleep time: %ss ...' % n
time.sleep(n)
#...You Code

新浪微博验证码处理,考虑到效率,还要考虑到验证码承受范围,只能大概控制翻页的时间范围。
之前吧,30 - 40 页绝对要出验证码,很烦人,这个设置后 Never !

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值