- 博客(1)
- 收藏
- 关注
原创 python 断点续爬的实现思路
断点续爬:是执行过一次的爬虫,再一次执行不是从头开始而是从上一次爬取的点继续爬取。 主要是在爬取的过程中记录下当前的状态,在开始爬虫的时候要判断一下是否有对应的爬虫状态记录。 根据需要爬取的数据大小和类型的不同可以使用不同方式实现断点续爬。 爬取少数量的文件或者图片的情况,可以在request得到页面信息的同时比对已经存储的数据是否存在 类似:os.path.exists(responses)的代码 ,存在则跳过 如果可...
2021-05-11 13:21:52
2601
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅