326day(pyspider内容补充)

本文主要对pyspider进行内容补充。介绍了pyspider相关函数,如程序入口on_start,创建爬取任务的self.crawl,用于抓取html文档数据的index_page,返回结果的detail_page。还提及了一些参数,如设置运行频率、任务有效期、优先级等,最后说明了删除项目的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《2018年8月25日》【连续326天】

标题:pyspider内容补充;

内容:

今天不方便,没法搞昨天的代码,便看了一些博客‘

在网上查找了一下pyspider相关资料:

on_start(self) 程序的入口,当点击左侧绿色区域右上角的 run 按钮时首先会调用这个函数

self.crawl(url, callback) pyspider库主要的API,用于创建一个爬取任务,url 为目标地址,callback 为抓取到数据后的回调函数

index_page(self, response) 参数为 Response 对象,response.doc 为 pyquery 对象(具体使用可见pyquery官方文档),pyquery和jQuery类似,主要用来方便地抓取返回的html文档中对应标签的数据

detail_page(self, response) 返回一个 dict 对象作为结果,结果会自动保存到默认的 resultdb 中,也可以通过重载方法来讲结果数据存储到指定的数据库

一些参数:

  • @every(minutes=24 * 60) 通知 scheduler(框架的模块) 每天运行一次

  • @config(age=10 * 24 * 60 * 60) 设置任务的有效期限,在这个期限内目标爬取的网页被认为不会进行修改

  • @config(priority=2) 设定任务优先级

 

删除项目:将group修改成delete,staus修改成STOP,24小时后系统自动删除
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值