学习python 第二十八天

学习爬虫要先了解Robots协议,它是网络爬虫排除标准,规定了网站哪些内容可被索引、哪些不能。同时还提到了robots.txt文件的写法及格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

要学爬虫首先要知道Robots协议 (网络爬虫排除标准)
也就是网站规定了哪些可以被索引,哪些不能被索引

robots.txt文件的写法
robots格式如下:

User-agent: * 针对定义搜索引擎类型,*代表对所有搜索引擎
Disallow: /     禁止抓取的地址。
Allow: /         允许抓取的地址。
“*”和”$” 分别代表通配符和终止符,百度蜘蛛一般用这两个通配符来模糊匹配url。”*”是匹配0或多个以上的的任意字符,”$”是匹配行的结束符。
写法规则,“:”的使用要是英文下的符号,写法后面留一空格,如下举例。

屏蔽整个网站,使用正斜线 
例:
User-agent: *
Disallow: /

要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线
例:
User-agent: *
Disallow: /目录名/

要屏蔽某个具体的网页,就指出这个网页
例:
User-agent: *
Disallow: /网页.htm

要屏蔽网站上的动态链接
例:
User-agent: *
Disallow: /*?*

要屏蔽网站上的css、js文件
例:
User-agent: *
Disallow: /*.js$
Disallow: /*.css$

要屏蔽网站上的图片
例:
User-agent: *
Disallow: *.jpg$
Disallow: *.png$
Disallow: *.gif$

要屏蔽网站上的文件包
例:
User-agent: *
Disallow: /*.zip
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

mr.杰瑞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值