9.1 爬虫及爬行方式
9.1.1 从哪儿开始:根集
9.1.2 链接的提取以及相对链接的标准化
9.1.3 避免环路的出现
9.1.4 循环与复制
9.1.5 面包屑留下的痕迹
9.1.6 别名与机器人环路
9.1.7 规范化 URL
9.1.8 文件系统连接环路
9.1.9 动态虚拟 web 空间
9.1.10 避免循环和重复
9.2 机器人的 HTTP
9.2.1 识别请求首部
9.2.2 虚拟主机
9.2.3 条件请求
9.2.4 对响应的处理
9.2.5 User-Agent 导向