爬虫Robots协议

本文详细介绍了京东网站的Robots协议内容,包括不同类型的爬虫所遵循的具体规则,例如禁止特定爬虫访问所有资源等。此外,还提到了并非所有网站都会设置Robots协议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

京东Robots协议:
http://www.jd.com/robots.txt

User-agent: *                   #无论任何爬虫都应遵守如下协议
Disallow: /?*                   #任何爬虫都禁止访问以?开头的路径
Disallow: /pop/*.html           #任何爬虫都禁止访问pop/*.html
Disallow: /pinpai/*.html?*      #符合此通配符的依旧不允许爬虫访问
User-agent: EtaoSpider          #以下四个爬虫禁止访问任何资源
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User0agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /


#其中*代表所有,/代表根目录
  • 并非所有网站都有Robots协议(如教育部网址站)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值