Python数据分析3——爬虫读入url和中断继续开始功能

最新推荐文章于 2024-07-18 10:47:56 发布

原创

最新推荐文章于 2024-07-18 10:47:56 发布 · 2.5k 阅读

18 ·

CC 4.0 BY-SA版权

本文介绍了如何在Python爬虫中实现中断后继续开始的功能，避免因网络问题或电脑故障导致的重复工作。关键步骤包括定义爬虫函数、存储已抓取URL、读取和判断已抓取URL、更新存储文件以及处理多列URL输入。掌握这部分内容，配合请求头、代理IP设置和爬虫主体，可以完成基本的爬虫任务。

爬虫执行过程中，难免会受网络出故障，电脑死机等一些不可控因素的干扰，而一旦出现这种情况，代码就会报错或者中断，需要重新执行。这样一来，为了避免代码的重复执行，保障运行效率，就必须要给代码设置中断后重新开始的功能。

中断继续开始的思路如下：

前提：

1.定义好爬虫函数（这个因具体网页而异）
2.定义存储抓完的url的函数

def saveFinished(url=None, path=None):
    """
    :param pageurl: 已完成页面url
    :param path: 写入文件
    :return:
    """
    if url is not None:
        with open(path, r"a", newline="", encoding="utf8") as fileError:
            fileError.writelines(url+'\n')