[Python3网络爬虫开发实战] pyspider 用法详解

本文深入介绍了 pyspider 的命令行参数配置,包括启动、Scheduler 和 Fetcher 的运行,以及如何设置访问认证。此外,详细讲解了 crawl() 方法的各个参数,如 url、callback、age、priority 等,帮助理解如何控制爬取行为。还涵盖了任务区分、全局配置、定时爬取、项目状态和抓取进度的管理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pyspider 用法详解
前面我们了解了 pyspider 的基本用法,我们通过非常少的代码和便捷的可视化操作就完成了一个爬虫的编写,本节我们来总结一下它的详细用法。

  1. 命令行
    上面的实例通过如下命令启动 pyspider:
pyspider all

命令行还有很多可配制参数,完整的命令行结构如下所示:

pyspider [OPTIONS] COMMAND [ARGS]

其中,OPTIONS 为可选参数,它可以指定如下参数。

在这里插入图片描述
例如,-c 可以指定配置文件的名称,这是一个常用的配置,配置文件的样例结构如下所示:
在这里插入图片描述
如果要配置 pyspider WebUI 的访问认证,可以新建一个 pyspider.json,内容如下所示:
在这里插入图片描述
这样我们通过在启动时指定配置文件来配置 pyspider WebUI 的访问认证,用户名为 root,密码为 123456,命令如下所示
在这里插入图片描述
也可以单独运行 pyspider 的某一个组件。

运行 Scheduler 的命令如下所示:

pyspider scheduler [OPTIONS]

运行时也可以指定各种配置,参数如下所示:
在这里插入图片描述
运行 Fetcher 的命令如下所示:
在这里插入图片描述
在这里插入图片描述
2. crawl() 方法
在前面的例子中,我们使用 crawl() 方法实现了新请求的生成,但是只指定了 URL 和 Callback。这里将详细介绍一下 crawl() 方法的参数配置。

url
url 是爬取时的 URL,可以定义为单个 URL 字符串,也可以定义成 URL 列表。

callback
callback 是回调函数,指定了该 URL 对应的响应内容用哪个方法来解析,如下所示:

n_start(self):
    self.crawl('http://scrapy.org/', callback=self.index_page)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值