思路
页面总共有250部电影,网站分为10页进行展示,通过分析发现,每个页面的URL存在如下规律:
第一页:
https://movie.douban.com/top250?start=0
第二页:
https://movie.douban.com/top250?start=25
第三页:
https://movie.douban.com/top250?start=50
……
最后一页:
https://movie.douban.com/top250?start=225
相信聪明的你,已经发现规律了吧!相邻两个页面的URL中的start参数之差为25,因此,我们可以根据这个规律来构造每一个页面的URL,通过循环来爬取每一个页面。
对于页面中,数据信息的提取,这里主要运用了XPath。如果对此语法不熟悉的小伙伴,可以参考我以前的博文。
传送门 ——> 网络爬虫之数据解析
更多有关爬虫的知识,也可以阅读我的爬虫专栏。
代码
import requests
import re
import json
import os
from lxml import etree
"""
爬取豆瓣电影Top250
"""
url = 'https://movie.douban.com/top250?start='
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
data = []
def main()

本文介绍了如何爬取豆瓣电影Top250,利用URL规律构造每个页面链接,并使用XPath提取数据。爬取完成后,数据被写入JSON文件。对于XPath不熟悉的读者,作者提供了相关博文链接作为参考,同时推荐了爬虫学习资源。
最低0.47元/天 解锁文章
8741

被折叠的 条评论
为什么被折叠?



