【python教程入门学习】Python爬虫抓取猫眼电影排行榜

最新推荐文章于 2025-03-16 23:39:09 发布

原创

最新推荐文章于 2025-03-16 23:39:09 发布 · 2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #正则表达式 #pycharm #pygame

本文介绍了如何使用Python爬虫抓取猫眼电影网的TOP100电影排行榜信息，包括确定页面类型、URL规律、正则表达式以及编写爬虫程序的详细步骤，并给出了部分爬取结果。

本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜（https://maoyan.com/board/4）影片信息，包括电影名称、上映时间、主演信息。

在开始编写程序之前，首先要确定页面类型（静态页面或动态页面），其次找出页面的 url 规律，最后通过分析网页元素结构来确定正则表达式，从而提取网页信息。

确定页面类型

点击右键查看页面源码，确定要抓取的数据是否存在于页面内。通过浏览得知要抓取的信息全部存在于源码内，因此该页面输属于静态页面。如下所示：

    <p class="name">
   <a href="/films/1200486" title="我不是药神" data-act="boarditem-click" data-val="{movieId:1200486}">我不是药神</a>
        </p>
    <p class="star">
            主演：徐峥,周一围,王传君
    </p>

上映时间：2018-07-05

确定url规律

想要确定 url 规律，需要您多浏览几个页面，然后才可以总结出 url 规律，如下所示：

第一页：https://maoyan.com/board/4?offset=0
第二页：https://maoyan.com/board/4?offset=10
第三页：https://maoyan.com/board/4?offset=20
…
第n页：https://maoyan.com/board/4?offset=