爬取豆瓣电影Top250并写入json文件

最新推荐文章于 2024-05-02 07:00:29 发布

原创

最新推荐文章于 2024-05-02 07:00:29 发布 · 2.4k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#xpath

本文介绍了如何爬取豆瓣电影Top250，利用URL规律构造每个页面链接，并使用XPath提取数据。爬取完成后，数据被写入JSON文件。对于XPath不熟悉的读者，作者提供了相关博文链接作为参考，同时推荐了爬虫学习资源。

文章目录

思路
代码
结果

思路

页面总共有250部电影，网站分为10页进行展示，通过分析发现，每个页面的URL存在如下规律：

第一页：
https://movie.douban.com/top250?start=0
第二页：
https://movie.douban.com/top250?start=25
第三页：
https://movie.douban.com/top250?start=50
……
最后一页：
https://movie.douban.com/top250?start=225

相信聪明的你，已经发现规律了吧！相邻两个页面的URL中的start参数之差为25，因此，我们可以根据这个规律来构造每一个页面的URL，通过循环来爬取每一个页面。
对于页面中，数据信息的提取，这里主要运用了XPath。如果对此语法不熟悉的小伙伴，可以参考我以前的博文。

传送门 ——> 网络爬虫之数据解析

更多有关爬虫的知识，也可以阅读我的爬虫专栏。

传送门

代码

import requests
import re
import json
import os
from lxml import etree

"""
爬取豆瓣电影Top250
"""

url = 'https://movie.douban.com/top250?start='

headers = {
   
   
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

data = []


def main()