爬取新浪微博的数据,验证码是个问题,很痛苦,又没钱找外包验证码团队,又没技术搞定新浪或者腾讯的验证码,于是乎,费了多少功夫不用说了,只能估模测试搜索限制,愁人。关键代码如下:
import time
#... You Codeimport random
n = random.choice([1,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,10])
#从列表中选择随机数
print 'while sleep time: %ss ...' % n
print 'while sleep time: %ss ...' % n
time.sleep(n)
#...You Code
新浪微博验证码处理,考虑到效率,还要考虑到验证码承受范围,只能大概控制翻页的时间范围。
之前吧,30 - 40 页绝对要出验证码,很烦人,这个设置后 Never !