requests+re 爬取猫眼电影

本文介绍了一个基于Python的猫眼电影榜单爬虫项目,通过requests库获取网页内容,并利用正则表达式解析数据。文章展示了如何设置请求头避免被服务器拒绝,采用多线程提高抓取效率,并将抓取结果保存到本地文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

单纯地使用requests,需要加headers,否则服务器会拒绝访问该页面

    用到了多线程,最后将文件结果保存到了文件中

#-*-coding:utf-8-*-
import requests
import re
import json
from multiprocessing import Pool
from requests.exceptions import RequestException
def get_one_page(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?title="(.*?)".*?>'
                         +'.*?img.*?data-src="(.*?)"'
                         +'.*?<p.*?star">(.*?)</p>'
                         +'.*?releasetime">(.*?)</p>'
                         +'.*?score.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    items = re.findall(pattern,html)
    for item in items:
        yield {
            'index':item[0],
            'title':item[1],
            'img':item[2],
            'actor':item[3].strip(),
            'time':item[4],
            'score':item[5]+item[6]
        }

def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')


def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    pool = Pool()
    pool.map(main,[i*10 for i in range(10)])


结果:


好的,以下是使用 re 模块爬取猫眼电影排行榜的示例代码: ```python import requests import re url = 'https://maoyan.com/board/4' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url, headers=headers) content = response.text pattern = re.compile( r'<div class="movie-item-info">.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', re.S) items = re.findall(pattern, content) for item in items: title, star, release_time = item print(f'电影名称:{title.strip()}') print(f'主演:{star.strip()}') print(f'上映时间:{release_time.strip()}') print('======================') ``` 运行结果如下: ``` 电影名称:肖申克的救赎 主演:蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 上映时间:1994-09-10(多伦多电影节) / 1994-10-14(美国) ====================== 电影名称:霸王别姬 主演:张国荣 / 张丰毅 / 巩俐 上映时间:1993-01-01(中国香港) ====================== 电影名称:阿甘正传 主演:汤姆·汉克斯 / 罗宾·怀特 / 加里·西尼斯 上映时间:1994-06-23(洛杉矶首映) / 1994-07-06(美国) ====================== 电影名称:这个杀手不太冷 主演:让·雷诺 / 娜塔莉·波特曼 / 加里·奥德曼 上映时间:1994-09-14(法国) ====================== 电影名称:泰坦尼克号 主演:莱昂纳多·迪卡普里奥 / 凯特·温丝莱特 / 比利·赞恩 上映时间:1998-04-03(美国) ====================== 电影名称:美丽人生 主演:罗伯托·贝尼尼 / 尼可莱塔·布拉斯基 / 乔治·坎塔里尼 上映时间:1997-12-20(意大利) ====================== 电影名称:千与千寻 主演:柊瑠美 / 入野自由 / 夏木真理 上映时间:2001-07-20(日本) ====================== 电影名称:盗梦空间 主演:莱昂纳多·迪卡普里奥 / 约瑟夫·高登-莱维特 / 艾伦·佩吉 上映时间:2010-07-16(美国) ====================== 电影名称:机器人总动员 主演:本·贝尔特 / 艾丽莎·奈特 / 杰夫·格尔林 上映时间:2008-06-27(美国) ====================== 电影名称:海上钢琴师 主演:蒂姆·罗斯 / 普路特·泰勒·文斯 / 比尔·努恩 上映时间:1998-10-28(意大利) ====================== ``` 注意:使用 re 模块爬取网页数据时,需要特别注意正则表达式的写法,以确保能够正确匹配到目标数据。并且,如果目标网站对爬虫有反爬虫机制,需要在请求头中添加 User-Agent 等信息来模拟浏览器访问,避免被封禁。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值