Robots Parser 技术文档

Robots Parser 技术文档

robots-parser NodeJS robots.txt parser with support for wildcard (*) matching. robots-parser 项目地址: https://gitcode.com/gh_mirrors/ro/robots-parser

安装指南

通过 NPM 安装

要安装 robots-parser,可以使用 NPM 命令:

npm install robots-parser

通过 Yarn 安装

或者使用 Yarn 命令:

yarn add robots-parser

项目使用说明

robots-parser 是一个用于解析 robots.txt 文件的工具,旨在符合 draft specification。它支持以下指令:

  • User-agent
  • Allow
  • Disallow
  • Sitemap
  • Crawl-delay
  • Host
  • 路径中的通配符 (*) 和 EOL 匹配 ($)

基本使用示例

以下是一个基本的使用示例:

var robotsParser = require('robots-parser');

var robots = robotsParser('http://www.example.com/robots.txt', [
    'User-agent: *',
    'Disallow: /dir/',
    'Disallow: /test.html',
    'Allow: /dir/test.html',
    'Allow: /test.html',
    'Crawl-delay: 1',
    'Sitemap: http://example.com/sitemap.xml',
    'Host: example.com'
].join('\n'));

robots.isAllowed('http://www.example.com/test.html', 'Sams-Bot/1.0'); // true
robots.isAllowed('http://www.example.com/dir/test.html', 'Sams-Bot/1.0'); // true
robots.isDisallowed('http://www.example.com/dir/test2.html', 'Sams-Bot/1.0'); // true
robots.getCrawlDelay('Sams-Bot/1.0'); // 1
robots.getSitemaps(); // ['http://example.com/sitemap.xml']
robots.getPreferredHost(); // example.com

项目 API 使用文档

isAllowed(url, [ua])

返回值类型: booleanundefined

该方法返回 true 如果指定的 URL 对于指定的用户代理是允许爬取的。如果 URL 对于这个 robots.txt 文件无效,则返回 undefined

isDisallowed(url, [ua])

返回值类型: booleanundefined

该方法返回 true 如果指定的 URL 对于指定的用户代理是不允许爬取的。如果 URL 对于这个 robots.txt 文件无效,则返回 undefined

getMatchingLineNumber(url, [ua])

返回值类型: numberundefined

该方法返回匹配指定 URL 和用户代理的指令的行号。行号从 1 开始(1-based indexing)。如果没有匹配的指令,则返回 -1。如果规则是手动添加且没有行号,则返回 undefined

getCrawlDelay([ua])

返回值类型: numberundefined

该方法返回指定用户代理在请求之间应等待的秒数。如果没有为该用户代理指定爬取延迟,则返回 undefined

getSitemaps()

返回值类型: array

该方法返回由 sitemap: 指令指定的站点地图 URL 数组。

getPreferredHost()

返回值类型: stringnull

该方法返回由 host: 指令指定的首选主机名,如果没有指定,则返回 null

项目安装方式

robots-parser 可以通过 NPM 或 Yarn 进行安装。具体安装命令如下:

通过 NPM 安装

npm install robots-parser

通过 Yarn 安装

yarn add robots-parser

通过以上步骤,您可以轻松地将 robots-parser 集成到您的项目中,并开始解析 robots.txt 文件。

robots-parser NodeJS robots.txt parser with support for wildcard (*) matching. robots-parser 项目地址: https://gitcode.com/gh_mirrors/ro/robots-parser

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

傅诗鸽Admirable

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值