pyspider 用法详解
前面我们了解了 pyspider 的基本用法,我们通过非常少的代码和便捷的可视化操作就完成了一个爬虫的编写,本节我们来总结一下它的详细用法。
- 命令行
上面的实例通过如下命令启动 pyspider:
pyspider all
命令行还有很多可配制参数,完整的命令行结构如下所示:
pyspider [OPTIONS] COMMAND [ARGS]
其中,OPTIONS 为可选参数,它可以指定如下参数。
例如,-c 可以指定配置文件的名称,这是一个常用的配置,配置文件的样例结构如下所示:
如果要配置 pyspider WebUI 的访问认证,可以新建一个 pyspider.json,内容如下所示:
这样我们通过在启动时指定配置文件来配置 pyspider WebUI 的访问认证,用户名为 root,密码为 123456,命令如下所示
也可以单独运行 pyspider 的某一个组件。
运行 Scheduler 的命令如下所示:
pyspider scheduler [OPTIONS]
运行时也可以指定各种配置,参数如下所示:
运行 Fetcher 的命令如下所示:
2. crawl() 方法
在前面的例子中,我们使用 crawl() 方法实现了新请求的生成,但是只指定了 URL 和 Callback。这里将详细介绍一下 crawl() 方法的参数配置。
url
url 是爬取时的 URL,可以定义为单个 URL 字符串,也可以定义成 URL 列表。
callback
callback 是回调函数,指定了该 URL 对应的响应内容用哪个方法来解析,如下所示:
n_start(self):
self.crawl('http://scrapy.org/', callback=self.index_page)