实战爬虫电影网的视频-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_58006135/article/details/131370703

本文介绍了如何利用Python的requests和re模块从电影网站抓取‘2023必看热片’列表，包括提取电影的HTML代码，解析a标签的href获取子页面链接，然后进一步提取电影名称和下载地址。文章还提及可以结合多线程或分布式爬虫提高爬取效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作为一个电影迷，我们每天都会关注某些网站的电影，但是如果想要获取到其中的电影信息，就需要使用爬虫技术。在这篇博客中，我将介绍如何使用Python爬虫从电影网站中获取电影信息。

首先，我们需要访问电影主页，并提取到其中的“2023必看热片”部分的HTML代码。我们可以使用re模块来实现这一步。

import requests
import re

url = "https://www.**********/"
resp = requests.get(url)
resp.encoding = "gbk"

# 1.提取2021必看热片部分的HTML代码
obj1 = re.compile(r"2023必看热片.*?<ul>(?P<html>.*?)</ul>", re.S)
result1 = obj1.search(resp.text)
html = result1.group("html")

# 2.提取a标签中的href的值
obj2 = re.compile(r"<li><a href='(?P<href>.*?)' title")
result2 = obj2.finditer(html)

接下来，我们需要使用上面提取到的href值访问子页面，并提取到其中的电影名称和下载地址。同样，我们可以使用re模块来实现这一步。

# 3.访问子页面，提取电影名称和下载地址
for item in result2:
    sub_url = url + item.group("href")
    sub_resp = requests.get(sub_url)
    sub_resp.encoding = "gbk"

    # 3.1 提取页面源代码
    obj3 = re.compile(
        rdivdiv id="Zoom">.*?◎片　　名(?P<movie>.*?)<br />.*?<td style="WORD-WRAP: break-word"'
        r' bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S
    )
    result3 = obj3.search(sub_resp.text)

    # 3.2 数据提取
    movie = result3.group("movie")
    download = result3.group("download")
    print(movie, download)