Python爬虫——爬取 猫眼电影Top100

本文介绍了如何使用Python爬虫爬取猫眼电影Top100的详细步骤,包括分析URL规律,请求网页,正则表达式提取信息,以及分页爬取和数据存储。通过编写get_one_page()、parse_one_page()和write_to_file()函数,实现了从获取网页内容到解析数据并存储到文件的完整流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python爬虫——爬取 猫眼电影Top100
一、分析url

首先,打开目标站点https://maoyan.com/board/4,打开之后便看到榜单信息:
在这里插入图片描述

排名第一的电影是霸王别姬,页面中可以看到的信息有电影名称,主演,上映时间,电影封面,评分,排名等。

页面最下面有分页列表,切换到第2页,看看url发生了哪些变化。
在这里插入图片描述
可以看到第2页的url为https://maoyan.com/board/4?offset=10,url与第1页相比发生了些变化。再分别把第3页和第4页的url拿来比较一下。

第1页:https://maoyan.com/board/4

第2页:https://maoyan.com/board/4?offset=10

第3页:https://maoyan.com/board/4?offset=20

第4页:https://maoyan.com/board/4?offset=30

貌似发现了一些规律,将第1页改为https://maoyan.com/board/4?offset=

Python爬虫基础案例通常从简单的网页抓取开始,比如爬取猫眼电影的数据。这里以`requests`库获取网页内容,然后用`BeautifulSoup`解析HTML,提取所需信息,并通过`pandas`将数据保存到Excel文件为例: 首先,你需要安装必要的库: ```bash pip install requests beautifulsoup4 pandas openpyxl ``` 下面是一个基本的Python爬虫脚本示例,假设我们要爬取电影名称、评分和主演信息: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 爬取URL url = "https://maoyan.com/board/4" response = requests.get(url) # 解析HTML soup = BeautifulSoup(response.text, 'lxml') # 查找需要的数据元素,这里假设电影列表在class为'movie-list' movies_data = soup.find_all(class_='movie-list') # 创建空列表存储数据 data_list = [] # 遍历每部电影 for movie in movies_data: title = movie.find('a', class_='title').text rating = movie.find('i', class_='rating_num')['title'] stars = ', '.join(movie.find_all('span', class_='name')) # 将数据添加到列表 data_list.append([title, rating, stars]) # 将数据转换为DataFrame df_movies = pd.DataFrame(data_list, columns=['电影名称', '评分', '主演']) # 保存到Excel文件 filename = '猫眼电影数据.xlsx' df_movies.to_excel(filename, index=False) ``` 这个例子中,爬虫会定期访问指定的猫眼电影页面,提取每个电影的基本信息,然后将其保存到一个名为`猫眼电影数据.xlsx`的Excel文件中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值