要学爬虫首先要知道Robots协议 (网络爬虫排除标准)
也就是网站规定了哪些可以被索引,哪些不能被索引
robots.txt文件的写法
robots格式如下:
User-agent: * 针对定义搜索引擎类型,*代表对所有搜索引擎
Disallow: / 禁止抓取的地址。
Allow: / 允许抓取的地址。
“*”和”$” 分别代表通配符和终止符,百度蜘蛛一般用这两个通配符来模糊匹配url。”*”是匹配0或多个以上的的任意字符,”$”是匹配行的结束符。
写法规则,“:”的使用要是英文下的符号,写法后面留一空格,如下举例。
屏蔽整个网站,使用正斜线
例:
User-agent: *
Disallow: /
要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线
例:
User-agent: *
Disallow: /目录名/
要屏蔽某个具体的网页,就指出这个网页
例:
User-agent: *
Disallow: /网页.htm
要屏蔽网站上的动态链接
例:
User-agent: *
Disallow: /*?*
要屏蔽网站上的css、js文件
例:
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
要屏蔽网站上的图片
例:
User-agent: *
Disallow: *.jpg$
Disallow: *.png$
Disallow: *.gif$
要屏蔽网站上的文件包
例:
User-agent: *
Disallow: /*.zip