下载静态网页源代码的 python 爬虫函数源代码:
import urllib2
def download(url, num_retries = 5):
'''
function: 下载网页源代码,如果遇到 5xx 错误状态,则继续尝试下载,直到下载 num_retries 次为止。
'''
print "downloading " , url
try:
html = urllib2.urlopen(url).read()
except urllib2.URLError as e:
print "download error: " , e.reason
html = None
if num_retries > 0

本文介绍了一个使用Python实现的下载静态网页源代码的爬虫函数,该函数包含错误重试机制,尤其针对5xx错误。欲了解更多详细信息,请访问作者的博客:www.wangs0622.com。
最低0.47元/天 解锁文章
1623

被折叠的 条评论
为什么被折叠?



