robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。 所通过在这个txt文档里添加相关的一些内容来禁止搜索引擎爬取相关的网页和路径。这样搜索引擎就只会爬取未经限制的网页。
每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。 如果你在robots.txt里面设置了禁止所有搜索引擎爬取,那么就会导致你的网页无法被搜索引擎收录。
robots.txt文件的格式
User-agent:该项的值用于描述搜索引擎robot的名字,如果是*表示的是所有的搜索引擎
Disallow:该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。
Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。