robots.txt

robots协议(爬虫、机器人协议),可告诉搜索引擎的漫游器(又称网络蜘蛛)哪些页面可抓取,那些页面不能抓取。约定俗成(不是一种阻止 搜索引擎 抓取某个网页的机制若想阻止 搜索引擎 访问某个网页,请使用 noindex 禁止将其编入索引,或使用密码保护该网页)的互联网界道德规范,保护网站数据和敏感信息,避免网站收到过多请求,存放于网站根目录下的ASCII编码的文件(由于一些系统URL大小写敏感,文件名统一小写【robots.txt】)。

当搜索引擎爬虫访问某个站点时,会先检查该站点根目录下是否有robots.txt,按照内容确定访问范围。

此时,robots.txt必须通过url/robot.txt打开看到内容

补充:其他影响搜索引擎的方法就有使用robots元数据

<meta name="robots" content="noindex,nofollow" />,也是约定俗成。

内容:

常见:

User-agent(允许的漫游器、网络蜘蛛)

*代表所有(0或多)

allow(允许抓取的目录)disallow(不允许抓取的目录)

/代表所有

实例

1.User-agent:*

allow:/

(允许所有引擎访问所有目录内容)

2.

User-agent:*

allow:/

(不允许访问tmp目录下的所有内容)

3.

User-agent:*

disallow:/*.html$

(禁止所有引擎访问以html结尾的所有目录内容){$结尾}

补充:A、当一个网站的 robots.txt 文件禁止了某个目录的访问,通常是为了告诉搜索引擎爬虫不要对该目录进行索引和抓取。虽然 robots.txt 文件可以指导搜索引擎爬虫的行为,但对于普通用户来说,并不会直接影响他们的访问权限。换句话说,被robots.txt禁止访问的某个目录,仍然可以通过浏览器等访问方式来访问。robots.txt 文件更多地是为了搜索引擎的使用而设计的,对用户访问而言并没有直接限制。

B、访问和搜索引擎的机制有一些不同。下面简要介绍一下它们各自的工作机制:

访问的机制:
1. 用户在浏览器中输入网址或点击链接,向服务器发送请求。
2. 服务器接收到请求后,查找相应的网页文件并将其发送回用户的浏览器。
3. 浏览器接收到网页文件后,解析其中的HTML、CSS、JavaScript等内容,并在用户界面上显示网页。
4. 用户可以浏览网页内容,点击链接跳转到其他页面,与网页进行交互等操作。

搜索引擎的机制(自动):详细:搜索引擎工作原理——蜘蛛爬行和抓取 - 知乎

1. 搜索引擎爬虫(web crawler)根据设定的算法和策略从一个种子网址开始抓取网页,逐步扩展爬取范围。
2. 爬虫程序抓取网页内容,将网页上的文本、链接、图片等数据提取出来,并存储到搜索引擎的数据库中。
3. 搜索引擎建立索引,即对抓取到的数据进行结构化处理和排序,以便后续的搜索查询。
4. 用户在搜索引擎中输入关键词后,搜索引擎根据索引库中的数据进行匹配,返回相关的搜索结果给用户显示。

在访问机制中,用户主动请求并获取特定网页的内容;而在搜索引擎的机制中,搜索引擎通过爬虫程序自动抓取网页内容、建立索引,并在用户查询时返回相关的搜索结果。两者的工作方式虽然有一定差异,但在互联网信息检索和浏览方面发挥着各自的重要作用。

参考:https://www.cnblogs.com/sddai/p/6820415.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值