网站robots.txt-6

1.robots是网站和百度爬虫抓取网站内容的抓取协议,打开robots.txt方式:http://命名/robots.txt,别人的网站也可以通过这样的方式打开robots.txt文件
2.每个网站的robot.txt文件都不一样,根据网站实际情况编写
3.User-agent: * 针对所有蜘蛛抓取
User-agent: Baiduspider 针对百度蜘蛛,写的越详细越好
Disallow: / 针对所有蜘蛛不抓取
Disallow: /plus/
Disallow: /?*
Disallow: /.css$ 不允许抓取.css结尾文件
Disallow: /.php$
Disallow: /article/
Disallow: /a/
Disallow: /sitemap/
Sitemap: http://www.jiangxinge.com/sitemap.xml
Sitemap: http://www.jiangxinge.com/sitemap.html
4.书写robots.txt注意事项:
首字母大写
英文状态下的:
空格
User-agent: Baiduspider 蜘蛛
Allow: / 所有目录
Disallow: /
5.Disallow: /plus/和Disallow: /plus区别
Disallow: /plus/ 禁止抓取plus文件下除子文件夹之外的内容,其子文件中的内容可抓取----文件
Disallow: /plus 禁止抓取plus文件下所有的内容----文件夹
6.robots.txt写的越详细越好,按照详细内容抓取
Disallow: /plus/
Allow: /plus/ttt.html 按照这条内容抓取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值