多页抓取的停止条件设定:
-
通过提取下一页链接,并判断是否是最后一页方式
-
通过提取总页数,再用列表推导式的方式获取所有url地址
url_list = [“https://hr.tencent.com/position.php?&start=” + str(page * 10) for page in range(0, 281)] -
根据响应状态码(不是200就有问题) / 响应内容(没有需要的数据)
if not node_list:
return
多页抓取的停止条件设定:
通过提取下一页链接,并判断是否是最后一页方式
通过提取总页数,再用列表推导式的方式获取所有url地址
url_list = [“https://hr.tencent.com/position.php?&start=” + str(page * 10) for page in range(0, 281)]
根据响应状态码(不是200就有问题) / 响应内容(没有需要的数据)
if not node_list:
return
1008

被折叠的 条评论
为什么被折叠?