robots协议的相关知识

最新推荐文章于 2022-03-11 16:55:05 发布

文博丶

最新推荐文章于 2022-03-11 16:55:05 发布

阅读量165

点赞数 1

原文链接：https://blog.youkuaiyun.com/qq_26139045/article/details/102987903?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogComme

版权

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。所通过在这个txt文档里添加相关的一些内容来禁止搜索引擎爬取相关的网页和路径。这样搜索引擎就只会爬取未经限制的网页。

每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该做网站中添加一个robots.txt。如果你在robots.txt里面设置了禁止所有搜索引擎爬取，那么就会导致你的网页无法被搜索引擎收录。