记录一个蠢极了的错误,加深记忆。
源代码目的:
已有一个list,存放所有需要爬取的网页的网址。这个list的长度>600
在index∈[501,601]index\in[501,601]index∈[501,601]的区间内,执行爬虫,爬取每个网页的信息。执行爬虫代码的名称叫zhuaqu(index1, index2)
希望每抓取4个网址后,休息5s.
错误原代码:
for i in range
本文记录了一次在Python爬虫中使用`for in range()`时因步长设置不当导致的错误。原本目的是在501到601之间爬取网页,每抓取4个网址后休息5秒,但错误的代码导致大量重复抓取。解决方案是在循环中引入步长,防止重复。修改后的代码有效避免了问题,提醒我们在编程时要注意循环步长的合理设置和检查抓取结果的重复情况。
记录一个蠢极了的错误,加深记忆。
源代码目的:
已有一个list,存放所有需要爬取的网页的网址。这个list的长度>600
在index∈[501,601]index\in[501,601]index∈[501,601]的区间内,执行爬虫,爬取每个网页的信息。执行爬虫代码的名称叫zhuaqu(index1, index2)
希望每抓取4个网址后,休息5s.
错误原代码:
for i in range
3142

被折叠的 条评论
为什么被折叠?