前提:
记得去年5月份左右的时候写过一篇使用Requests方法来爬取猫眼榜单电影的文章,今天偶然翻到了这篇文章,又恰巧最近在学scrapy框架进行爬虫,于是决定饶有兴趣的使用scrapy框架再次进行爬取。
说明:
如图所示,这次爬取的猫眼榜单网页链接内容大致如下(图1-1),这次需要爬取的信息分别是电影名称、主演、上映时间、电影评分和电影图片链接,然后将获取的电影图片下载保存到本地,如图1-2所示。

图1-1

图1-2
爬虫解析:
1、首先使用谷歌浏览器打开网页,然后按下键盘“F12”进入开发者工具调试界面,选择左上角的箭头图标,然后鼠标移至一个电影名处,就可以定位到该元素源代码的具体位置,定位到元素的源代码之后,可以从源代码中读出改元素的属性,如图2-1所示:

本文介绍了使用Scrapy框架再次爬取猫眼前100电影榜单的过程,包括需要爬取的电影信息(名称、主演、上映时间、评分和图片链接)以及如何使用XPath定位元素。在完成爬取后,电影图片被保存到本地。
最低0.47元/天 解锁文章
719

被折叠的 条评论
为什么被折叠?



