用正则表达式爬取猫眼电影TOP100排行榜

本文介绍如何使用正则表达式爬取猫眼电影排行榜的电影信息,包括排名、影片名称、上映时间和评分。通过分析页面URL规律,提取所需数据,并最终将数据整理成Excel文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

要求

爬取猫眼电影TOP100排行榜电影信息(排名/影片名称/上映时间/评分)

爬取过程

1.找出每一页url的变化规律是参数offset,写for循环

for i in range(2):
    url = 'https://maoyan.com/board/4?offset={}'.format(i*10)
    response = requests.get(url,headers).text

2.查看第一页源代码,找出需要爬取信息的位置,并找出规律
在这里插入图片描述
排名信息在<dd>节点下class为board-index 的i 节点内,
对应正则表达式为:<dd>.*?board-index.*?>(\d+)</i>

电影名称在class为name的a节点内,
对应正则表达式为.*?name"><a.?>(.?)</a>

上映时间在class为releasetime的p节点内
对应正则表达式为: .*?releasetime">(.*?)</p>

评分在class为integer和fraction的p节点内
对应正则表达式为:.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>

所以整段表达式为:

pattern = re.compile(r'<dd>.*?board-index.*?>(\d+)</i>.*?name"><a.*?>(.*?)</a>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
items = re.findall(pattern,response)

3.这里的items 变量是一个列表,列表中的元素是十个元组(十部电影),每一个元组分别包含了最新一页中一部电影的信息(排名/名称/上映时间/评分);因为items在for循环里,所以每次循环都会被覆盖
在这里插入图片描述
再写一个代码,把每次循环后 得到的items里的元组放进一个列表中,

for item in items:
    movie.append(item)

4.最后把movie列表用pandas导入,再导出为excel

title = ['RANK','NAME','RELEASE TIME','INTEGER','FRACTION']
movie_info=pd.DataFrame(movie,columns=title)
movie_info.to_excel('MAOYAN.xlsx')

附完整代码

import requests
import re
import pandas as pd
import time
movie = []
title = ['RANK','NAME','RELEASE TIME','INTEGER','FRACTION']
headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36'}
for i in range(10):
    url = 'https://maoyan.com/board/4?offset={}'.format(i*10)
    response = requests.get(url,headers).text
    pattern = re.compile(r'<dd>.*?board-index.*?>(\d+)</i>.*?data-src=".*?".*?name"><a.*?>(.*?)</a>.*?star">.*?</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    items = re.findall(pattern,response)
    time.sleep(1)
    for item in items:
        movie.append(item)

movie_info=pd.DataFrame(movie,columns=title)
movie_info.to_excel('MAOYAN.xlsx')


疑问

1.正则表达式太长,如何换行?




待改进

1.如何用xpath解析?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值