1. 网络爬虫限制:
限制方式 | 说明 |
---|
来源审查:判断User-Agent 进行限制 | 检查来访HTTP协议头的User-Agent域 ,只响应浏览器或友好爬虫访问 |
发布公告:Robots 协议 | |
2. Robots协议:
2.1 简介
| 说明 |
---|
Robots协议全称 | Robots Exclusion Standard (网络爬虫排除标准) |
作用 | 网站告知网路爬虫哪些页面可以抓取,哪些不行【类人行为,可以不遵守】 |
形式 | 网站根目录 下放置robots.txt 文件 |
使用 | 自动或人工识别robots.txt 文件,再进行内容爬取 |
约束性 | Robots协议 是建议性非约束性 ,可以不遵守,但存在法律风险 |
2.2 robots.txt
示例
#
# robots.txt for Discuz! X3
#
User-agent: AhrefsBot
Disallow: /
User-agent: *
Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/default/
Disallow: /config/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /admin.php
Disallow: /search.php
Disallow: /member.php
Disallow: /member.php?mod=logging*
Disallow: /api.php
Disallow: /misc.php
Disallow: /connect.php
Disallow: /forum.php?mod=redirect*
Disallow: /forum.php?mod=post*
Disallow: /forum.php?mod=misc*
Disallow: /home.php?*
Disallow: /*?mod=misc*
Disallow: /*?mod=attachment*
Disallow: /*mobile=yes*
Disallow: /space-*
Disallow: /forum.php?fid=*
Disallow: /forum.php?aid=*
Disallow: /forum.php?goto=*
Disallow: /forum.php?tid=*
Disallow: /forum.php?op=*
Disallow: /forum.php?do=*
Disallow: /*?peed=noscript
Disallow: /*?ModPagespeed=noscript
Disallow: /?*
Disallow: /index.php?*
Disallow: /*?_t_t_t=*