爬取结果
mongodb数据库:

spider文件
分析秀动网站页面的布局,准备爬取我们需要的信息。
没有粘贴代码,简单讲解一下爬取上海所有的演出信息。
parse方法里面定义
页面演出信息的列表:
datas = response.xpath("/html/body/div[4]/ul/li")
循环遍历这个列表,可以取到我们需要的剧目名称和详情页的url
item['show_name'] = data.xpath('a/@title').extract()[0]
url = data.xpath('a/@href').extract()[0]
然后采用回调函数指向下一个函数,主要对详情页处理
meta参数传递字典
yield scrapy.Request(url, callback=self.parse_details, meta=({'item': item}))
parse_details方法
拿到上个函数传递的字典
item = response.meta['item']
接着就是写xpath提取页面的数据…
这里就不一一说了,就说一下价格的简单清洗。
网页上面的价格:

本文介绍了如何利用Scrapy爬取秀动网上上海地区的演出信息,包括剧目名称、详情页URL,并通过回调函数parse_details进行详细信息的抓取。内容涉及XPath提取数据、价格的清洗以及最终将数据有序存储到MongoDB数据库中。
最低0.47元/天 解锁文章
2097

被折叠的 条评论
为什么被折叠?



