学习python 第二十八天

最新推荐文章于 2024-12-13 19:53:01 发布

原创最新推荐文章于 2024-12-13 19:53:01 发布 · 158 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

47 篇文章

订阅专栏

学习爬虫要先了解Robots协议，它是网络爬虫排除标准，规定了网站哪些内容可被索引、哪些不能。同时还提到了robots.txt文件的写法及格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

要学爬虫首先要知道Robots协议（网络爬虫排除标准）
也就是网站规定了哪些可以被索引，哪些不能被索引

robots.txt文件的写法
robots格式如下:

User-agent: * 针对定义搜索引擎类型，*代表对所有搜索引擎
Disallow: /     禁止抓取的地址。
Allow: /         允许抓取的地址。
“*”和”$” 分别代表通配符和终止符，百度蜘蛛一般用这两个通配符来模糊匹配url。”*”是匹配0或多个以上的的任意字符，”$”是匹配行的结束符。
写法规则，“:”的使用要是英文下的符号，写法后面留一空格，如下举例。

屏蔽整个网站，使用正斜线 
例：
User-agent: *
Disallow: /

要屏蔽某一目录以及其中的所有内容，在目录名后添加正斜线
例：
User-agent: *
Disallow: /目录名/

要屏蔽某个具体的网页，就指出这个网页
例：
User-agent: *
Disallow: /网页.htm

要屏蔽网站上的动态链接
例：
User-agent: *
Disallow: /*?*

要屏蔽网站上的css、js文件
例：
User-agent: *
Disallow: /*.js$
Disallow: /*.css$

要屏蔽网站上的图片
例：
User-agent: *
Disallow: *.jpg$
Disallow: *.png$
Disallow: *.gif$

要屏蔽网站上的文件包
例：
User-agent: *
Disallow: /*.zip