《2018年8月25日》【连续326天】
标题:pyspider内容补充;
内容:
今天不方便,没法搞昨天的代码,便看了一些博客‘
在网上查找了一下pyspider相关资料:
on_start(self) 程序的入口,当点击左侧绿色区域右上角的 run 按钮时首先会调用这个函数
self.crawl(url, callback) pyspider库主要的API,用于创建一个爬取任务,url 为目标地址,callback 为抓取到数据后的回调函数
index_page(self, response) 参数为 Response 对象,response.doc 为 pyquery 对象(具体使用可见pyquery官方文档),pyquery和jQuery类似,主要用来方便地抓取返回的html文档中对应标签的数据
detail_page(self, response) 返回一个 dict 对象作为结果,结果会自动保存到默认的 resultdb 中,也可以通过重载方法来讲结果数据存储到指定的数据库
一些参数:
-
@every(minutes=24 * 60) 通知 scheduler(框架的模块) 每天运行一次
-
@config(age=10 * 24 * 60 * 60) 设置任务的有效期限,在这个期限内目标爬取的网页被认为不会进行修改
-
@config(priority=2) 设定任务优先级
删除项目:将group修改成delete,staus修改成STOP,24小时后系统自动删除