requests+re 爬取猫眼电影

最新推荐文章于 2024-04-04 08:00:00 发布

原创最新推荐文章于 2024-04-04 08:00:00 发布 · 446 阅读

2 ·

CC 4.0 BY-SA版权

爬虫专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一个基于Python的猫眼电影榜单爬虫项目，通过requests库获取网页内容，并利用正则表达式解析数据。文章展示了如何设置请求头避免被服务器拒绝，采用多线程提高抓取效率，并将抓取结果保存到本地文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单纯地使用requests，需要加headers，否则服务器会拒绝访问该页面

用到了多线程,最后将文件结果保存到了文件中

#-*-coding:utf-8-*-
import requests
import re
import json
from multiprocessing import Pool
from requests.exceptions import RequestException
def get_one_page(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?title="(.*?)".*?>'
                         +'.*?img.*?data-src="(.*?)"'
                         +'.*?<p.*?star">(.*?)</p>'
                         +'.*?releasetime">(.*?)</p>'
                         +'.*?score.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    items = re.findall(pattern,html)
    for item in items:
        yield {
            'index':item[0],
            'title':item[1],
            'img':item[2],
            'actor':item[3].strip(),
            'time':item[4],
            'score':item[5]+item[6]
        }

def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')


def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    pool = Pool()
    pool.map(main,[i*10 for i in range(10)])

结果：