使用正则表达式提取电影信息

目录

代码讲解

总代码

效果展示


代码讲解

在网络爬虫中,我们经常需要从网页中提取有用的信息,其中一种常见的方式是使用正则表达式。本文将介绍如何使用 Python 的 re 模块和正则表达式来提取豆瓣电影 Top250 页面的电影信息。 首先,我们需要发送请求获取网页内容,并使用 decode 方法将网页内容的字节流转化为字符串。这个过程与 BeautifulSoup 版本是一样的,主要是为了方便后续处理。具体代码如下:

import requests 
import re 
# 设置请求头 
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } 
# 发送请求,获取网页内容 
url = 'https://movie.douban.com/top250' 
response = requests.get(url, headers=headers) 
if response.status_code == 200: 
    print('网页内容获取成功。') 
else: 
    print(f'网页内容获取失败。状态码:{response.status_code}') 
html = response.content.decode('utf-8')

接下来,我们需要构造一个正则表达式的模式字符串,来匹配 HTML 代码中的电影信息。这里我们使用了 re 模块的 compile 函数来编译正则表达式。在模式字符串中,我们使用了 .*? 来匹配电影信息前后的任意字符,使用 (.*?) 来分组提取电影名称、电影信息中的上映地点和时长、评分和星级等信息。其中,re.S 表示使用单行模式,可以匹配多行字符串。具体代码如下:

# 使用正则表达式提取电影信息 
pattern = re.compile(r'<li>.*?<span class="title">(.*?)</span>.*?<p class="">(.*?)</p>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>', re.S) 
items = re.findall(pattern, html)

然后,我们使用 re 模块的 findall 函数来在 HTML 代码中查找所有符合模式字符串的电影信息,并将结果保存到 items 列表中。如果没有找到符合条件的电影信息,则 items 列表为空。 接下来,我们遍历 items 列表,提取电影名称、上映地点、时长、评分、星级等信息,并将其写入 result.txt 文件中。如果 items 列表为空,则输出没有获取到电影信息的提示。具体代码如下:

if items: 
    print(f'共获取到 {len(items)} 条电影信息。') 
    with open('result.txt', 'w', encoding='utf-8') as f: 
        for item in items: 
            title = item[0] 
            info = item[1].split('/') 
            region = info[0].strip() 
            length = info[1].strip() if len(info) > 1 else '' 
            star = item[2] 
            quote = item[3] 
            f.write(f'电影名称:{title}\n') 
            f.write(f'上映地点:{region}\n') 
            f.write(f'时长:{length}\n') 
            f.write(f'评分:{star}\n') 
            f.write(f'星级:{quote}\n\n') 
else: 
    print('没有获取到电影信息。')

需要注意的是,使用正则表达式提取 HTML 代码中的信息,可能会受到 HTML 代码的变化而出现问题。因此,如果您需要爬取的网站或页面具有一定的复杂度,建议使用 BeautifulSoup 等 HTML 解析库来提取信息,这样更为稳定和可靠。 至此,使用正则表达式提取电影信息的代码已经完成。您可以根据自己的需求修改相关代码,并将其应用于其他网页信息的提取。 希望本文能够对您有所帮助!

总代码

import requests
import re
# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}
# 发送请求,获取网页内容
url = 'https://movie.douban.com/top250'
response = requests.get(url, headers=headers)
if response.status_code == 200:
    print('网页内容获取成功。')
else:
    print(f'网页内容获取失败。状态码:{response.status_code}')
html = response.content.decode('utf-8')
# 使用正则表达式提取电影信息
pattern = re.compile(r'<li>.*?<span class="title">(.*?)</span>.*?<p class="">(.*?)</p>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>', re.S)
items = re.findall(pattern, html)
if items:
    print(f'共获取到 {len(items)} 条电影信息。')
    with open('result.txt', 'w', encoding='utf-8') as f:
        for item in items:
            title = item[0]
            info = item[1].split('/')
            region = info[0].strip()
            length = info[1].strip() if len(info) > 1 else ''
            star = item[2]
            quote = item[3]
            f.write(f'电影名称:{title}\n')
            f.write(f'上映地点:{region}\n')
            f.write(f'时长:{length}\n')
            f.write(f'评分:{star}\n')
            f.write(f'星级:{quote}\n\n')
else:
    print('没有获取到电影信息。')

效果展示

 

Python使用正则表达式暴力爬取豆瓣电影是一种可以快速获取电影信息的方法。首先,我们需要使用requests库获取豆瓣电影页面的HTML源代码。接下来,使用正则表达式对源代码进行匹配和提取。例如,如果我们想获取电影的名称、评分和导演信息,我们可以使用正则表达式匹配对应的HTML标签并提取出所需的文本信息。比如使用正则表达式" <span class="title">(.+?)</span>" 可以匹配到电影名称所在的标签。 接下来,我们可以通过循环遍历的方式不断获取更多的电影信息。假设每个页面显示20部电影,我们可以使用正则表达式找到下一页的链接,并不断访问并抓取数据。 当然,使用正则表达式爬取数据也有一些缺点。因为正则表达式往往较为复杂,所以代码可读性较差,容易出错和不易维护。此外,如果网页结构发生变化,我们需要手动修改正则表达式以适应变化,工作量较大。因此,当网页结构较为复杂或者需要爬取大量数据时,我们可以考虑使用更强大的爬虫框架如Scrapy,它集成了更多方便的功能,如自动跟踪链接和处理异步加载的数据等。 总之,对于简单的爬取任务,Python使用正则表达式暴力爬取豆瓣电影是一种比较直接且有效的方法。但是需要注意的是遵守豆瓣网站的爬虫规则,并且避免频繁请求造成对网站的负载过大。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猪猪爱学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值