1.robots是网站和百度爬虫抓取网站内容的抓取协议,打开robots.txt方式:http://命名/robots.txt,别人的网站也可以通过这样的方式打开robots.txt文件
2.每个网站的robot.txt文件都不一样,根据网站实际情况编写
3.User-agent: * 针对所有蜘蛛抓取
User-agent: Baiduspider 针对百度蜘蛛,写的越详细越好
Disallow: / 针对所有蜘蛛不抓取
Disallow: /plus/
Disallow: /?*
Disallow: /.css$ 不允许抓取.css结尾文件
Disallow: /.php$
Disallow: /article/
Disallow: /a/
Disallow: /sitemap/
Sitemap: http://www.jiangxinge.com/sitemap.xml
Sitemap: http://www.jiangxinge.com/sitemap.html
4.书写robots.txt注意事项:
首字母大写
英文状态下的:
空格
User-agent: Baiduspider 蜘蛛
Allow: / 所有目录
Disallow: /
5.Disallow: /plus/和Disallow: /plus区别
Disallow: /plus/ 禁止抓取plus文件下除子文件夹之外的内容,其子文件中的内容可抓取----文件
Disallow: /plus 禁止抓取plus文件下所有的内容----文件夹
6.robots.txt写的越详细越好,按照详细内容抓取
Disallow: /plus/
Allow: /plus/ttt.html 按照这条内容抓取