本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜(https://maoyan.com/board/4)影片信息,包括电影名称、上映时间、主演信息。
在开始编写程序之前,首先要确定页面类型(静态页面或动态页面),其次找出页面的 url 规律,最后通过分析网页元素结构来确定正则表达式,从而提取网页信息。
确定页面类型
点击右键查看页面源码,确定要抓取的数据是否存在于页面内。通过浏览得知要抓取的信息全部存在于源码内,因此该页面输属于静态页面。如下所示:
<p class="name">
<a href="/films/1200486" title="我不是药神" data-act="boarditem-click" data-val="{movieId:1200486}">我不是药神</a>
</p>
<p class="star">
主演:徐峥,周一围,王传君
</p>
上映时间:2018-07-05
确定url规律
想要确定 url 规律,需要您多浏览几个页面,然后才可以总结出 url 规律,如下所示:
第一页:https://maoyan.com/board/4?offset=0
第二页:https://maoyan.com/board/4?offset=10
第三页:https://maoyan.com/board/4?offset=20
…
第n页:https://maoyan.com/board/4?offset=
Python爬虫实践:抓取猫眼电影排行榜

本文介绍了如何使用Python爬虫抓取猫眼电影网的TOP100电影排行榜信息,包括确定页面类型、URL规律、正则表达式以及编写爬虫程序的详细步骤,并给出了部分爬取结果。
最低0.47元/天 解锁文章
1792

被折叠的 条评论
为什么被折叠?



