《2018年8月22日》【连续324天】
标题:pyspider实例;
内容:
这是之前的完整代码:
https://github.com/Python3WebSpider/Qunar/blob/master/spider.py
class Handler(BaseHandler):
crawl_config = {
}
@every(minutes=24 * 60)
def on_start(self):
self.crawl('http://travel.qunar.com/travelbook/list.htm', callback=self.index_page)
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
for each in response.doc('li > .tit > a').items():
self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')
next = response.doc('.next').attr.href
self.crawl(next, callback=self.index_page)
@config(priority=2)
def detail_page(self, response):
return {
'url': response.url,
'title': response.doc('#booktitle').text(),
'date': response.doc('.when .data').text(),
'day': response.doc('.howlong .data').text(),
'who': response.doc('.who .data').text(),
'text': response.doc('#b_panel_schedule').text(),
'image': response.doc('.cover_img').attr.src
}
本文介绍了一个使用PySpider框架抓取旅游攻略网站信息的具体案例。通过定义类Handler并配置爬取规则,定时抓取页面数据,并解析出攻略的标题、日期等关键信息。
485

被折叠的 条评论
为什么被折叠?



