Python数据分析3——爬虫读入url和中断继续开始功能

本文介绍了如何在Python爬虫中实现中断后继续开始的功能,避免因网络问题或电脑故障导致的重复工作。关键步骤包括定义爬虫函数、存储已抓取URL、读取和判断已抓取URL、更新存储文件以及处理多列URL输入。掌握这部分内容,配合请求头、代理IP设置和爬虫主体,可以完成基本的爬虫任务。

爬虫执行过程中,难免会受网络出故障,电脑死机等一些不可控因素 的干扰,而一旦出现这种情况,代码就会报错或者中断,需要重新执行。这样一来,为了避免代码的重复执行,保障运行效率,就必须要给代码设置中断后重新开始的功能。

中断继续开始的思路如下:

前提:

1.定义好爬虫函数(这个因具体网页而异)
2.定义存储抓完的url的函数

def saveFinished(url=None, path=None):
    """
    :param pageurl: 已完成页面url
    :param path: 写入文件
    :return:
    """
    if url is not None:
        with open(path, r"a", newline="", encoding="utf8") as fileError:
            fileError.writelines(url+'\n')

3.定义restart_program函数。含义是爬虫执行中出现故障,需要手动重新开始

def 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值