利用Python爬虫抓取猫眼电影排行(pyquery方式)

本文介绍了一个使用Python爬取猫眼电影Top100榜单数据的实例。通过requests库获取网页内容,并利用PyQuery进行数据解析。该爬虫能够抓取每部电影的排名、海报图片链接、名称、演员阵容、上映时间和评分等信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from pyquery import PyQuery as pq
import requests
import json
import time
from requests.exceptions import RequestException

def parse_one_page(docs):
    doc = docs('.board-wrapper').find('dd')
    for item in doc.items():
        yield {
            'index': item.find('.board-index').text(),
            'image': item.find('.board-img').attr('data-src'),
            'title': item.find('.name').text(),
            'actor': item.find('.star').text().strip()[3:],
            'time': item.find('.releasetime').text(),
            'score': item.find('.score').find('.integer').text().strip() + item.find('.score').find(
            '.fraction').text().strip()
        }





def write_to_file(item):
    with open('test.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(item,ensure_ascii=False)+'\n')

def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }

    docs = pq(url, headers=headers)
    #doc = docs('.board-wrapper').find('dd')
    for item in parse_one_page(docs):
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    for i in range(10):
        main(offset=i*10)
        time.sleep(1)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值