python 爬虫 | for in range()步长的使用

最新推荐文章于 2024-06-07 11:38:19 发布

原创

最新推荐文章于 2024-06-07 11:38:19 发布 · 3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文记录了一次在Python爬虫中使用`for in range()`时因步长设置不当导致的错误。原本目的是在501到601之间爬取网页，每抓取4个网址后休息5秒，但错误的代码导致大量重复抓取。解决方案是在循环中引入步长，防止重复。修改后的代码有效避免了问题，提醒我们在编程时要注意循环步长的合理设置和检查抓取结果的重复情况。

记录一个蠢极了的错误，加深记忆。

源代码目的：
已有一个list，存放所有需要爬取的网页的网址。这个list的长度>600
在 $index∈[501,601]index\in[501,601]$ 的区间内，执行爬虫，爬取每个网页的信息。执行爬虫代码的名称叫zhuaqu(index1, index2)
希望每抓取4个网址后，休息5s.

错误原代码：

for i in range

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。