robots.txt是一个纯文本文件,robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
robots.txt必须放在一个站点的根目录下,而且文件名必须全部小写。
robots.txt格式:<field>:<optionalspace><value><optionalspace>
可用"#"进行注释
举例说明:
1.禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
2.允许所有ROBOT访问(也可以创建一个空robots.txt文件)
User-agent: *
Disallow:
3.禁止所有搜索引擎访问网站的几个部分
User-agent: *
Disallow: /ddg-big/
Disallow: /ddgweb/
Disallow: /privet/
4.禁止某个搜索引擎访问(如百度)
User-agent: Baiduspider
Disallow: /
5.允许某个搜索引擎的访问(如google)
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
查看网站的robotsx.txt
域名/robots.txt
常见搜索引擎机器人名称:
Baiduspider www.baidu.com 百度
Googlebot www.google.com 谷歌
MSNBot www.msn.com MSN
常见问题
Disallow: /ddg 对/ddg.html和/ddg/index/html都不允许
Disallow: /ddg/ 对/ddg.html可以访问,对/ddg/index/html不可以访问
robots.txt必须放在一个站点的根目录下,而且文件名必须全部小写。
robots.txt格式:<field>:<optionalspace><value><optionalspace>
可用"#"进行注释
举例说明:
1.禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
2.允许所有ROBOT访问(也可以创建一个空robots.txt文件)
User-agent: *
Disallow:
3.禁止所有搜索引擎访问网站的几个部分
User-agent: *
Disallow: /ddg-big/
Disallow: /ddgweb/
Disallow: /privet/
4.禁止某个搜索引擎访问(如百度)
User-agent: Baiduspider
Disallow: /
5.允许某个搜索引擎的访问(如google)
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
查看网站的robotsx.txt
域名/robots.txt
常见搜索引擎机器人名称:
Baiduspider www.baidu.com 百度
Googlebot www.google.com 谷歌
MSNBot www.msn.com MSN
常见问题
Disallow: /ddg 对/ddg.html和/ddg/index/html都不允许
Disallow: /ddg/ 对/ddg.html可以访问,对/ddg/index/html不可以访问