前言
Box Office Mojo是一个拥有一些北美电影票房数据的网站,在业界堪称最权威的网站,该网站简称BOM

思路
分析该网站,我们可以找到请求的URL,这里以2011年的数据为例进行分析。
请求的URL为:https://www.boxofficemojo.com/daily/2011/?view=year
该URL中含有一个2011,想必我不说,大家也知道该怎样构造URL吧!这里可以用变量来代替2011,想要获取哪一年的数据,只需要让此变量等于指定的年份即可。好了,URL分析完了,下面我们再来分析一下网页中的数据。

可以看到数据在网页中是以表格的形式出现的,那么想要提取数据就非常简单了,直接用pandas来读取返回的网页源码即可。
代码
# !/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time: 2020/1/5 17:03
# @Author:

本文介绍了如何使用Python爬取Box Office Mojo网站上的电影票房数据。通过分析URL结构,以2011年为例,利用pandas读取网页源码提取表格数据。同时,注意需要伪装请求头以应对网站的反爬机制,并确保在追加写入数据到文件时,文件已存在。
最低0.47元/天 解锁文章
794

被折叠的 条评论
为什么被折叠?



