《HTTP权威指南》学习笔记（9）第9章Web机器人（关键词：计算机网络/HTTP/Web机器人）

最新推荐文章于 2024-07-31 17:54:05 发布

原创最新推荐文章于 2024-07-31 17:54:05 发布 · 261 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#计算机网络 #HTTP #Web机器人

计算机网络同时被 3 个专栏收录

50 篇文章

订阅专栏

HTTP

32 篇文章

订阅专栏

《HTTP权威指南》读书笔记

11 篇文章

订阅专栏

本文探讨了Web机器人的爬行方式和技术细节，包括根集选择、链接提取、避免环路等。此外，还介绍了HTTP请求处理、robots.txt文件的使用、搜索引擎的工作原理等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第9章 Web机器人

9.1 爬虫及爬行方式

9.1.1 从哪儿开始：根集

9.1.2 链接的提取以及相对链接的标准化

9.1.3 避免环路的出现

9.1.4 循环与复制

9.1.5 面包屑留下的痕迹

9.1.6 别名与机器人环路

9.1.7 规范化URL

9.1.8 文件系统连接环路

9.1.9 动态虚拟Web空间

9.1.10 避免循环和重复

9.2 机器人的HTTP

9.2.1 识别请求首部

9.2.2 虚拟主机

9.2.3 条件请求

9.2.4 对响应的处理

9.2.5 User-Agent导向

9.3 行为不当的机器人

9.4 拒绝机器人访问

9.4.1 拒绝机器人访问标准

9.4.2 Web站点和robots.txt文件

9.4.3 robots.txt文件的格式

9.4.4 其他有关robots.txt的过期

9.4.5 缓存和robots.txt的

9.4.6 拒绝机器人访问的Perl代码

9.4.7 HTML的robot-control元标签

9.5 机器人的规范

9.6 搜索引擎

9.6.1 大格局

9.6.2 现代搜索引擎结构

9.6.3 全文索引

9.6.4 发布查询请求

9.6.5 对结果进行排序，并提供查询结果

9.6.6 欺诈

9.7 更多信息

参考文献：
1.《HTTP权威指南》。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HenryQWER

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

1、Python网络编程：实用指南与技巧

e6f7g8h9i的博客

07-09

本书《Python网络编程：实用指南与技巧》由Dr. M. O. Faruque Sarker撰写，是一本面向实践的网络编程指南。书中涵盖了Python中各种网络编程协议和技术，如TCP/UDP、HTTP/HTTPS、FTP、SMTP、POP3、IMAP、CGI、XML-RPC、SOAP和REST等，重点在于通过实际操作掌握Python网络编程技能。书籍内容从基础的客户端-服务器通信到高级网络任务如监控与安全均有详细讲解。同时，书中还介绍了多种常用的第三方Python库，如requests、scapy、pa

信息安全工程师第二版考试总结+笔记

热门推荐

IT技术

11-29

2万+

信息安全工程师第二版考试总结+笔记

参与评论您还未登录，请先登录后发表或查看评论

《HTTP权威指南》第九章学习总结--WEB机器人

weixin_41400449的博客

06-18

152

**定个小目标，吃透这本书，每天最少一章优快云见** WEB爬虫是一种机器人，它可以爬取网络上的数据。我们需要给它一个其实点，爬虫开始访问的URL初始集合，被称作根集。跟集中并不需要很多页面，就可以涵盖一大片的WEB结构，一个好的根集会包括一些大的流行的WEB站点。爬虫会将所有爬取的HTML进行解析，收集有用的信息，会对上面所有的URL链接进行分析，并将这些链接添加到需要爬行的页面列表中去。 机器人在Web 上爬行时，要特别小心不要陷入循环，或环路之中。复杂的机器人可能会用搜索树或...

HTTP权威协议笔记-9.Web机器人

weixin_30263277的博客

02-06

141

　　经过整个春节的放肆，终于回归了，说实话，春节真心比上班累。 9.1 爬虫及爬行方式　　(1) 爬虫：Web爬虫是一种机器人，他们会递归性的对各种信息Web站点进行遍历。　　(2) 爬行方式：Web机器人会获取Web页面，然后获取这个页面指向的所有Web页面，再指向这个站点所指向的页面，依次类推。　　(3) 从哪儿开始：根集　　爬虫在开始访问的URL初始集合被称为根集。通常一个...

《HTTP权威指南》——Web机器人（爬虫）

Windeal

07-03

1591

Web机器人：在无需人类干预的条件下，能够自动进行一系列Web事务处理的软件程序。爬虫及爬行方式**爬虫：**Web爬虫其实就是一个Web机器人，爬虫会递归遍历各种信息性站点。爬行方式：递归遍历，首先抓取第一个页面，提取有用的内容；然后又递归地遍历第一个页面上的所有超链接。爬虫的设计在设计Web爬虫时，需要注意以下几个方面 + 根集——爬虫的起点：爬虫开始爬行时，要先有起点。要从

《HTTP权威指南》– 8.网关、机器人

weixin_34152820的博客

12-15

139

2019独角兽企业重金招聘Python工程师标准>>> ...

webpshere portal 6 tuning guide(英文pdf)

11-29

webpshere portal 6 tuning guide pdf

《HTTP权威指南》学习笔记（0）前言、目录（关键词：计算机网络/HTTP）

Henry1991back的博客

11-20

1584

第一部分 HTTP:Web的基础第1章 HTTP概述1.1 HTTP——因特网的多媒体信使1.2 Web客户端和服务器1.3 资源1.3.1 媒体类型1.3.2 URI1.3.3 URL1.3.4 URNsth. #参考文献： 1.《HTTP权威指南》。

《HTTP权威指南》学习笔记（1）第1章HTTP概述（关键词：计算机网络/HTTP）

Henry1991back的博客

11-21

266

第1章 HTTP概述1.1 HTTP——因特网的多媒体信使1.2 Web客户端和服务器1.3 资源1.3.1 媒体类型1.3.2 URI1.3.3 URL1.3.4 URN1.4 事务1.4.1 方法1.4.2 状态码1.4.3 Web页面中可以包含多个对象1.5 报文1.6 连接1.6.1 TCP/IP1.6.2 连接、IP地址及端口号1.6.3 使用Telnet实例1.7协议版本1.8 Web的

【计算机网络】读书笔记之《HTTP权威指南》

a2888409

06-03

1659

HTTP协议是非常重要的应用层协议，有很多应用都是基于它构建，比如web浏览器、服务器等等，因此我们很有必要去深入学习它。《权威HTTP指南》整本书穿插了很多的图片，所以理解起来相对其他书快也很多。本书第一部分详尽的讲解了HTTP协议的基本知识，包括请求响应报文的格式，常见状态码等等。第二部分是Web架构方面的知识：最基本的Web服务器的结构、代理、缓存、网关、隧道等等一系列概念，还讲解了写一

网络安全资料汇总！

weixin_46159811的博客

01-07

4251

1.网络安全资料汇总 web security：《http权威指南》【图灵出品】深入理解web http/https协议，了解超文本传输协议是如何进行传输和编译的。《javascript权威指南》淘宝前端团队翻译，深入了解前端js变量，注释，函数，表达式等，学习xss必备书籍。还提及了jquery类库。《xs...

2024大语言模型入门指南：从小白到高手(基础篇)

最新发布

张伟的专栏

07-31

3163

硬件资源篇。

网络安全技术发展方向与趋势研究

2401_84208172的博客

06-09

2221

随着新一代信息技术与经济社会发展各领域深度融合，网络安全形势日益严峻，网络安全技术在维护国家安全、支撑产业转型、服务社会发展、保护公众利益等方面的重要作用愈加凸显。本文开展了面向2035年的网络安全技术预见，综合运用愿景分析、需求分析、前沿分析、相关研究成果分析等方法，总结凝练密码技术、数据安全、内容安全等7个子领域的60项网络安全领域关键技术，通过两轮德尔菲调查筛选出10项网络安全领域优先技术方向。面向全球网络安全技术发展新态势新趋势和我国经济社会发展新要求，提出了加快推动我国网络安全技术发展的建议。

[201209][HTTP 权威指南][陈涓][赵振平][译]

damoluomu的专栏

07-24

6374

==[201209][HTTP 权威指南][陈涓][赵振平][译]== 第一部分 HTTP : Web 的基础第 1 章 HTTP 概述 1.1 HTTP - 因特网的多媒体信使 1.2 Web 客户端和服务器 1.3 资源 1.3.1 媒体类型 1.3.2 URI 1.3.3 URL 1.3.4 URN 1.4 事务 1.4.1...

18. web robot

enlyhua的专栏

09-15

354

9.1 爬虫及爬行方式 9.1.1 从哪儿开始：根集 9.1.2 链接的提取以及相对链接的标准化 9.1.3 避免环路的出现 9.1.4 循环与复制 9.1.5 面包屑留下的痕迹 9.1.6 别名与机器人环路 9.1.7 规范化 URL 9.1.8 文件系统连接环路 9.1.9 动态虚拟 web 空间 9.1.10 避免循环和重复

TCP/IP 分别在模型的哪一层？（关键词：计算机网络/TCP/IP）

Henry1991back的博客

12-11

1万+

1. TCP/IP 分别在模型的哪一层？ TCP 在传输层（运输层）； IP 在网络层（互联网层）。参考文献：《计算机网络（第 5 版）》 - Tanenbaum - 1.4 参考模型 - 1.4.1 OSI 参考模型 &amp; 1.4.2 TCP/IP 参考模型 &amp; 1.4.3 本书使用的模型，P32——P41。 ...

《图解HTTP》读书笔记（9）第9章基于HTTP的功能追加协议（关键词：HTTP/）

Henry1991back的博客

11-17

6743

第9章基于HTTP的功能追加协议9.1 基于HTTP的协议9.2 消除HTTP瓶颈的SPDY9.2.1 HTTP的瓶颈9.2.2 SPDY的设计与功能9.2.3 SPDY消除Web瓶颈了吗9.3 使用浏览器进行全双工通信的WebSocket9.3.1 WebSocket的设计与功能9.3.2 WebSocket协议9.4 期盼已久的HTTP/2.09.5 Web服务器管理文件的WebDAV9.5.

出现过多的close_wait可能是什么原因？（关键词：计算机网络/TCP/close_wait）

Henry1991back的博客

12-16

6255

出现过多的close_wait可能是什么原因？（首先需要注意的是，客户机、服务器均可以发起对 TCP 连接的关闭，以下以客户机发起关闭为例。）什么是 close_wait：关闭 TCP 连接过程中，第 2、3 次挥手时，服务器发送了 ACK 报文段、FIN 报文段之后，服务器会进入 close_wait 状态。（具体是第 2 次挥手还是第 3 次挥手时，是发送了 ACK 报文段还是 FIN 报...

《HTTP权威指南》学习笔记（2）第2章URL与资源（关键词：计算机网络/HTTP/URL/资源）

Henry1991back的博客

11-21

3641

第2章 URL与资源2.1 浏览因特网资源2.2 URL的语法2.2.1 方案——使用什么协议2.2.2 主机与端口2.2.3 用户名和密码2.2.4路径2.2.5 参数2.2.6 查询字符串2.2.7 片段2.3 URL快捷方式2.3.1 相对URL2.3.2 自动扩展URL2.4 各种令人头疼的字符2.4.1 URL字符集2.4.2 编码机制2.4.3 字符限制2.4.4 另外一点说明2.5 方