Robots Parser 技术文档

傅诗鸽Admirable

于 2024-10-18 12:28:36 发布

阅读量479

点赞数 25

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_01233/article/details/143047906

Robots Parser 技术文档

robots-parser NodeJS robots.txt parser with support for wildcard (*) matching. 项目地址: https://gitcode.com/gh_mirrors/ro/robots-parser

安装指南

通过 NPM 安装

要安装 robots-parser，可以使用 NPM 命令：

npm install robots-parser

通过 Yarn 安装

或者使用 Yarn 命令：

yarn add robots-parser

项目使用说明

robots-parser 是一个用于解析 robots.txt 文件的工具，旨在符合 draft specification。它支持以下指令：

User-agent
Allow
Disallow
Sitemap
Crawl-delay
Host
路径中的通配符 (*) 和 EOL 匹配 ($)

基本使用示例

以下是一个基本的使用示例：

var robotsParser = require('robots-parser');

var robots = robotsParser('http://www.example.com/robots.txt', [
    'User-agent: *',
    'Disallow: /dir/',
    'Disallow: /test.html',
    'Allow: /dir/test.html',
    'Allow: /test.html',
    'Crawl-delay: 1',
    'Sitemap: http://example.com/sitemap.xml',
    'Host: example.com'
].join('\n'));

robots.isAllowed('http://www.example.com/test.html', 'Sams-Bot/1.0'); // true
robots.isAllowed('http://www.example.com/dir/test.html', 'Sams-Bot/1.0'); // true
robots.isDisallowed('http://www.example.com/dir/test2.html', 'Sams-Bot/1.0'); // true
robots.getCrawlDelay('Sams-Bot/1.0'); // 1
robots.getSitemaps(); // ['http://example.com/sitemap.xml']
robots.getPreferredHost(); // example.com

项目 API 使用文档

`isAllowed(url, [ua])`

返回值类型: boolean 或 undefined

该方法返回 true 如果指定的 URL 对于指定的用户代理是允许爬取的。如果 URL 对于这个 robots.txt 文件无效，则返回 undefined。

`isDisallowed(url, [ua])`

返回值类型: boolean 或 undefined

该方法返回 true 如果指定的 URL 对于指定的用户代理是不允许爬取的。如果 URL 对于这个 robots.txt 文件无效，则返回 undefined。

`getMatchingLineNumber(url, [ua])`

返回值类型: number 或 undefined

该方法返回匹配指定 URL 和用户代理的指令的行号。行号从 1 开始（1-based indexing）。如果没有匹配的指令，则返回 -1。如果规则是手动添加且没有行号，则返回 undefined。

`getCrawlDelay([ua])`

返回值类型: number 或 undefined

该方法返回指定用户代理在请求之间应等待的秒数。如果没有为该用户代理指定爬取延迟，则返回 undefined。

`getSitemaps()`

返回值类型: array

该方法返回由 sitemap: 指令指定的站点地图 URL 数组。

`getPreferredHost()`

返回值类型: string 或 null

该方法返回由 host: 指令指定的首选主机名，如果没有指定，则返回 null。

项目安装方式

robots-parser 可以通过 NPM 或 Yarn 进行安装。具体安装命令如下：

通过 NPM 安装

npm install robots-parser

通过 Yarn 安装

yarn add robots-parser

通过以上步骤，您可以轻松地将 robots-parser 集成到您的项目中，并开始解析 robots.txt 文件。

robots-parser NodeJS robots.txt parser with support for wildcard (*) matching. 项目地址: https://gitcode.com/gh_mirrors/ro/robots-parser

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

傅诗鸽Admirable 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。