Robots协议 :Robots Exclusion Standard(网络爬虫排除标准)

1. 网络爬虫限制:

限制方式说明
来源审查:判断User-Agent 进行限制检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫访问
发布公告:Robots协议

2. Robots协议:

2.1 简介

说明
Robots协议全称Robots Exclusion Standard(网络爬虫排除标准)
作用网站告知网路爬虫哪些页面可以抓取,哪些不行【类人行为,可以不遵守】
形式网站根目录下放置robots.txt文件
使用自动或人工识别robots.txt文件,再进行内容爬取
约束性 Robots协议是建议性非约束性,可以不遵守,但存在法律风险

2.2 robots.txt示例

#
# robots.txt for Discuz! X3
#


User-agent: AhrefsBot
Disallow: /

User-agent: *
Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/default/
Disallow: /config/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /admin.php
Disallow: /search.php
Disallow: /member.php
Disallow: /member.php?mod=logging*
Disallow: /api.php
Disallow: /misc.php
Disallow: /connect.php
Disallow: /forum.php?mod=redirect*
Disallow: /forum.php?mod=post*
Disallow: /forum.php?mod=misc*
Disallow: /home.php?*
Disallow: /*?mod=misc*
Disallow: /*?mod=attachment*
Disallow: /*mobile=yes*
Disallow: /space-*
Disallow: /forum.php?fid=*
Disallow: /forum.php?aid=*
Disallow: /forum.php?goto=*
Disallow: /forum.php?tid=*
Disallow: /forum.php?op=*
Disallow: /forum.php?do=*
Disallow: /*?peed=noscript
Disallow: /*?ModPagespeed=noscript
Disallow: /?*
Disallow: /index.php?*
Disallow: /*?_t_t_t=*
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值