爬虫执行过程中,难免会受网络出故障,电脑死机等一些不可控因素 的干扰,而一旦出现这种情况,代码就会报错或者中断,需要重新执行。这样一来,为了避免代码的重复执行,保障运行效率,就必须要给代码设置中断后重新开始的功能。
中断继续开始的思路如下:
前提:
1.定义好爬虫函数(这个因具体网页而异)
2.定义存储抓完的url的函数
def saveFinished(url=None, path=None):
"""
:param pageurl: 已完成页面url
:param path: 写入文件
:return:
"""
if url is not None:
with open(path, r"a", newline="", encoding="utf8") as fileError:
fileError.writelines(url+'\n')
3.定义restart_program函数。含义是爬虫执行中出现故障,需要手动重新开始
def

本文介绍了如何在Python爬虫中实现中断后继续开始的功能,避免因网络问题或电脑故障导致的重复工作。关键步骤包括定义爬虫函数、存储已抓取URL、读取和判断已抓取URL、更新存储文件以及处理多列URL输入。掌握这部分内容,配合请求头、代理IP设置和爬虫主体,可以完成基本的爬虫任务。
最低0.47元/天 解锁文章
4078

被折叠的 条评论
为什么被折叠?



