requests库爬取猫眼电影“最受期待榜”榜单 --网络爬虫

最新推荐文章于 2025-08-08 15:43:57 发布

转载最新推荐文章于 2025-08-08 15:43:57 发布 · 132 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/qikeyishu/p/10758081.html

文章标签：

#爬虫 #json

本文介绍了一个使用Python进行网页爬取的实战案例，针对猫眼电影的热门榜单，详细解析了如何利用requests和正则表达式抓取电影排名、图片、名称、主演和上映时间等信息，并将数据保存至本地文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标站点：https://maoyan.com/board/6

# coding:utf8
import requests, re, json
from requests.exceptions import RequestException


# from multiprocessing import Pool

# 获取页面
def get_one_page(url):
    try:
        resp = requests.get(url)
        if resp.status_code == requests.codes.ok:
            return resp.text
        else:
            return None
    except RequestException:
        return None


# 页面解析
def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\\d+)</i>.*?data-src="(.*?)"'
                         '.*?name"><a.*?">(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         '.*?</dd>', re.S)
    items = re.findall(pattern, html)  # result is a list,made up of tuples
    for item in items:
        # 生成字典
        yield {
            'index': item[0],
            'img_url': item[1],
            'title': item[2],
            'stars': item[3][3:],
            'releasetime': item[4],
        }


# 将爬取到的内容写入到文件中
def write_file(content):
    with open('content.txt', 'a', encoding='utf-8') as f:
        str_content = json.dumps(content, ensure_ascii=False)  # 转换成字符串
        f.write(str_content + '\n')
        f.close()


# 主函数
def main(offset):
    url = "https://maoyan.com/board/6/?offset=" + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_file(item)
        print(item)


if __name__ == "__main__":
    # 请求5次
    for i in range(5):
        main(i * 10)

在这里插入图片描述