Python爬虫urllib之猫眼电影正则

最新推荐文章于 2025-08-17 21:34:10 发布

冥想10分钟大师

最新推荐文章于 2025-08-17 21:34:10 发布

阅读量348

点赞数

CC 4.0 BY-SA版权

分类专栏： urllib 文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/qq_31235811/article/details/88770868

urllib 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种使用Python正则表达式从猫眼电影网站抓取电影信息的方法。通过发送HTTP请求获取页面源码，利用正则表达式匹配并提取电影名称等关键信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

猫眼电影

 '''
利用正则爬取猫眼电影
-url:http://maoyan.com/board
-把电影信息拿下来
分析
-一个电影信息在dd的单元内
-找到每一个dd，用re按个查找需要的信息
'''
#1 把网页信息爬取下来
from urllib import request
url = 'http://maoyan.com/board'

rsp = request.urlopen(url)
html = rsp.read().decode()
with open("asp.html", "w",encoding='utf-8')as f:
    f.write(html)
# print(html)

#2 找到每个dd单元
import re

s = r'<dd>(.*?)</dd>'
pattern = re.compile(s, re.S)
films = pattern.findall(html)
print（len（films））＃3提取出dd单元中需要的电影中的电影信息：    ＃提取电影名字    s = r'<a。*？title =“（。*？）”'     pattern = re.compile （s）    title = pattern.findall（film）[0]     print（title）```