爬取豆瓣电影Top250并写入json文件

本文介绍了如何爬取豆瓣电影Top250,利用URL规律构造每个页面链接,并使用XPath提取数据。爬取完成后,数据被写入JSON文件。对于XPath不熟悉的读者,作者提供了相关博文链接作为参考,同时推荐了爬虫学习资源。

文章目录

思路

页面总共有250部电影,网站分为10页进行展示,通过分析发现,每个页面的URL存在如下规律:

第一页:
https://movie.douban.com/top250?start=0
第二页:
https://movie.douban.com/top250?start=25
第三页:
https://movie.douban.com/top250?start=50
……
最后一页:
https://movie.douban.com/top250?start=225

相信聪明的你,已经发现规律了吧!相邻两个页面的URL中的start参数之差为25,因此,我们可以根据这个规律来构造每一个页面的URL,通过循环来爬取每一个页面。
对于页面中,数据信息的提取,这里主要运用了XPath。如果对此语法不熟悉的小伙伴,可以参考我以前的博文。

传送门 ——> 网络爬虫之数据解析

更多有关爬虫的知识,也可以阅读我的爬虫专栏。

传送门

代码

import requests
import re
import json
import os
from lxml import etree

"""
爬取豆瓣电影Top250
"""

url = 'https://movie.douban.com/top250?start='

headers = {
   
   
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

data = []


def main()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值