关于网络爬虫如何避免环路（死循环）与避免陷阱（出不来）？

最新推荐文章于 2022-04-06 12:42:52 发布

原创最新推荐文章于 2022-04-06 12:42:52 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

略问 www.luewen.com

文章标签：

#爬虫搜索引擎 java爬虫程序爬虫搜索关键字搜索

搜索引擎专栏收录该内容

13 篇文章

订阅专栏

关于网络爬虫如何避免环路（死循环）与避免陷阱（出不来）？

那么我们如何防止访问已经访问过的页面呢？设置一个标志即可。整个互联网就是一个图结构，我们通常使用DFS（深度优先搜索）和BFS（广度优先搜索）进行遍历。所以，像遍历一个简单的图一样，将访问过的结点标记一下即可。

解决方案

1.限定爬虫的最大循环次数，对于某Web站点访问超过一定阈值就跳出，避免无限循环；
2.保存一个已访问Url列表，记录该页面是否被访问过的；

关于抓取策略

1.调度爬虫抓取压力，限制访问次数与时间，超时后自动切换。

2.限制Url的字节长度，环路可能会使得Url长度增加。

3.去掉无用字符与URL别名，制定Url的规范。

URL规范

1.canonical标签识别；

2.去掉特殊符号，常见的有:?=&%，一般会出现在不规则的URL当中。

3.HttpCode 301或302重定的URL合并到最终URL上。

4.Simhash是用来网页去重最常用的hash方法，速度很快。

5.从 robots.txt 来判断该URL是否可以抓取。

6.通过单张网页的link总数来判定，link为0的页面，不抓取。

7.通过单张网页的大小来判定，字节来判断。

快搜知识搜索，未完待续！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。