
9. Web 机器人
文章平均质量分 69
gzf6
这个作者很懒,什么都没留下…
展开
-
9.1 爬虫及爬行方式
Web 机器人(Web robot):自活跃(self-animating)用户代理,是能够在无需人类干预的情况下自动进行一系列 Web 事务处理的软件程序。很多机器人会从一个 Web 站点逛到另一个 Web 站点,获取内容,跟踪超链,并对它们找到的数据进行处理。根据这些机器人自动探查 Web 站点的方式,人们为它们起了一些各具特色的名字,比如“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等,就好像它原创 2017-10-24 15:14:51 · 658 阅读 · 0 评论 -
9.2 机器人的 HTTP
机器人和所有其他 HTTP 客户端程序并没有什么区别。它们也要遵守 HTTP 规范中的规则。发出 HTTP 请求并将自己广播成 HTTP/1.1 客户端的机器人也要使用正确的 HTTP 请求首部。很多机器人都试图只实现请求它们所查找内容所需的最小 HTTP 集。这会引发一些问题;但短期内这种行为不会发生什么改变。结果就是,很多机器人发出的都是 HTTP/1.0 请求,因为这个协议的要求很少。1.原创 2017-10-24 15:16:53 · 442 阅读 · 0 评论 -
9.3 行为不当的机器人
机器人可能会犯的错误,及其恶劣行为所带来的后果:1. 失控机器人机器人发起 HTTP 请求的速度要比在 Web 上冲浪的人类快得多,它们通常都运行在具有快速网络链路的高速计算机上。如果机器人存在编程逻辑错误,或者陷入了环路之中,就可能会向 Web 服务器发出大量的负载——很可能会使服务器过载,并拒绝为任何其他人提供服务。所有的机器人编写者都必须特别小心地设计一些保护措施,以避免失控机器人带来的危害。原创 2017-10-24 15:17:36 · 250 阅读 · 0 评论 -
9.4 拒绝机器人访问
拒绝机器人访问标准:1994 年,人们提出了一项简单的自愿约束技术,可以将机器人阻挡在不适合它的地方之外,并为网站管理员提供了一种能够更好地控制机器人行为的机制。这个标准被称为“拒绝机器人访问标准”,但通常只是根据存储访问控制信息的文件而将其称为 robots.txt。robots.txt 的思想很简单。所有 Web 服务器都可以在服务器的文档根目录中提供一个可选的、名为 robots.txt 的原创 2017-10-24 15:19:02 · 1161 阅读 · 0 评论 -
9.5 机器人的规范
Web机器人操作员指南原创 2017-10-24 15:20:32 · 151 阅读 · 0 评论 -
9.6 搜索引擎
得到最广泛使用的 Web 机器人都是因特网搜索引擎。Web 爬虫为因特网搜索引擎提供信息,它们获取 Web 上的文档,并允许搜索引擎创索引,用以说明哪些文档中有哪些词存在。搜索引擎是 Web 机器人的主要来源——让我们来快速了解一下它们是如何工作的。1. 大格局现在,Web 上有数十亿可供访问的页面,搜索引擎已经成为因特网用户查找信息不可缺少的工具。面对数十亿的 Web 页面,和数百万要查找原创 2017-10-24 15:22:02 · 262 阅读 · 0 评论