robots.txt防爬虫使用

最新推荐文章于 2025-09-16 16:01:21 发布

原创最新推荐文章于 2025-09-16 16:01:21 发布 · 1.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

爬虫开发学习同时被 2 个专栏收录

33 篇文章

订阅专栏

2 篇文章

订阅专栏

robots.txt是一个告诉搜索引擎哪些页面可以抓取的文本文件。本文介绍了它的基本语法，包括User-agent和Disallow字段的用法，并给出了多个示例。同时，提到了文件的风险及注意事项，如避免暴露网站结构和敏感信息。

部署运行你感兴趣的模型镜像

robots.txt文件用法举例：

首先来看看robots.txt文件的使用位置情况，如github的robots使用情况。

下面参考https://blog.youkuaiyun.com/cc1254383393/article/details/48753961/

1.robots.txt文件是什么

robots.txt是一个纯文本文件，是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。每个站点最好建立一个robots.txt文件，对seo更友好。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器将在日志中记录一条404错误，所以你应该在网站中添加一个robots.txt（即使这个robots.txt文件只是一个空文件）。

2.robots.txt的写法（语法）

1）User-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*，则该协议对任何机器人均有效。

2）Disallow: 该项的值用于描述不希望被访问到的一个URL，一个目录或者整个网站。以Disallow 开头的URL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空，说明该网站的所有部分都允许被访问。

3）用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt" file)

User-agent: *

Disallow:

例3. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

例5.一个简单例子

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。

需要注意的是对每一个目录必须分开声明，而不要写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent:后的*具有特殊的含义，代表"any robot"，所以在该文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"这样的记录出现.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

3.robots.txt文件带来的风险以及解决

　　robots.txt 同时也带来了一定的风险：其也给攻击者指明了网站的目录结构和私密数据所在的位置。设置访问权限，对您的隐私内容实施密码保护，这样，攻击者便无从进入。

4.注意事项：

1）robots.txt必须放置在站点的根目录下，而且文件名必须全部小写。

2）不要在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取。

3）为安全考虑，建议很重要的文件夹不要写在robots.txt文件中，或你只建一个空白robots.txt文件，在不要访问的目录中加入其它的技术。

https://blog.youkuaiyun.com/cc1254383393/article/details/48753961/这篇博客内容写得很详细，有兴趣的可以阅读一下该篇博客。

您可能感兴趣的与本文相关的镜像

Linly-Talker

Linly-Talker

AI应用

Linly-Talker是一款创新的数字人对话系统，它融合了最新的人工智能技术，包括大型语言模型（LLM）、自动语音识别（ASR）、文本到语音转换（TTS）和语音克隆技术

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。