《HTTP权威指南》笔记摘要Day6

最新推荐文章于 2025-01-19 01:08:06 发布

Noob_Boy

最新推荐文章于 2025-01-19 01:08:06 发布

阅读量307

点赞数

CC 4.0 BY-SA版权

分类专栏：后端小白的个人提升计划文章标签：后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43823924/article/details/110410054

后端小白的个人提升计划专栏收录该内容

31 篇文章

订阅专栏

本文概述了如何通过规范化URL、广度优先爬取、节流限制、URL长度控制、站点黑名单、模式检测及内容指纹来防止爬虫陷入循环。讲解了人工监视和搜索引擎索引在避免重复抓取中的角色，以及欺诈手段对搜索排名的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《HTTP权威指南》笔记摘要Day6

避免爬虫循环和重复的技巧
搜索引擎
全文索引
欺诈

避免爬虫循环和重复的技巧

规范化URL

将URL转换为标准形式以避免语法上的别名

使用广度优先的爬行

每次爬虫都有大量存在的URL去爬行。以广度优先方式调度URL访问可以将把连接环路的影响最小化。即使遇到了机器人陷阱，在进入环路之前已经获取了成百上千页面。如果使用深度优先方法，可能会一头扎到单一网站中进入URL环路，无端消耗资源。

节流

限制一段时间内从某一个WEB站点获取的页面数，减小进入环路带来的浪费。

限制URL大小

限制爬行超过特定长度的URL，以终结环路。
但是这样会错过一些内容，有的公司会把超长的用户ID或Token直接放到Query String中

站点黑名单

维护一个机器人环路和陷阱对应的已知站点的URL列表，然后爬行时避开，遇到新问题URL时添加到黑名单。

模式检测

例如把重复组件URL当中潜在环路，拒绝爬行有一定数量组件重复的URL。
重复不一定是连续的。

内容指纹

对获取页面内容中的字节进行校验和检验。
因为两个页面出现相同内容机率十分低，所以要对校验和函数进行选择，MD5报文摘要函数常用于内容指纹计算。

人工监视

对爬虫日志进行人工监视。

搜索引擎

搜索引擎广泛使用Web机器人（爬虫）技术，搜索到的内容都是爬虫得到的缓存或快照

全文索引

全文索引就是一个数据库，给他一个单词，他就能立即提供包含此单词的文档。
在这里插入图片描述

欺诈

很多网站为了再相关性排序中获得较前的位置，会为网站中加许多无关数字，甚至使用网关应用生成一些某些特定单词上可以更好地欺骗搜索引擎相关性算法的假冒页面

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。