Python如何爬取不确定页数的网页

最新推荐文章于 2023-09-25 18:27:42 发布

dta0502

最新推荐文章于 2023-09-25 18:27:42 发布

阅读量1w

点赞数 3

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： Python scrapy

本文链接：https://blog.youkuaiyun.com/dta0502/article/details/90214639

爬虫专栏收录该内容

33 篇文章

订阅专栏

本文探讨了在Python爬虫中处理不确定页数的网页问题，分析了三种常见的网页页数展现形式，并提供了两种解决方案：使用For循环和While循环。在Scrapy框架下，分别展示了这两种方法的实现，For循环可能会发送无用请求，而While循环能避免此问题但牺牲了Scrapy的异步优势。

详细版本见个人博客：Python如何爬取不确定页数的网页

一、问题分析

我们通常遇到的网站页数展现形式有这么几种：

第一种是直观地显示所有页数，显示在页面上。
第二种是不直观显示网页总页数，需要抓包才可以看到，一般来说会有一个totalPage参数。
第三种是不知道具体有多少页的网页。

对于，前两种形式的网页，爬取方法非常简单，使用 For 循环从首页爬到尾页就行了，第三种形式则不适用，因为不知道尾页的页数，所以循环到哪一页结束无法判断。

二、解决方案

这里有两种解决方式：

第一种方式：使用 For 循环，尾页的页数设置一个较大的参数，足够循环爬完所有页面。
第二种方法：使用 While 循环，可以结合 break 语句，也可以设起始循环判断条件为 True，从头开始循环爬取直到爬完最后一页，然后更改判断条件为 False 跳出循环，结束爬取。

三、实际案例——scrapy实现

1、For循环实现

Scrapy 中使用 For 循环递归爬取的思路非常简单，即先批量生成所有请求的 URL，包括最后无效的 URL，后续在 parse 方法中添加 if 判断过滤无效请求。

由于 Scrapy 依赖于Twisted框架，采用的是异步请求处理方式，可以边发送请求边解析内容，不会被阻塞，但是这种方法会发送很多无用请求。

def start_requests(self):
    url_lists = []
    for i in range(0,500):
        req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20*i,url_genres = self.genres[0]))
        url_lists.append(req)
    return url_lists
    

def parse(self, response):
    # 判断该页是否有内容，数值定为20是因为无内容时长度是11
    if len(response.body) >= 20:
        movie = IDItem()
        dicts = json.loads(response.body)
        data_list = dicts['data']
        for data in data_list:
            movie['ids'] = data['id']
            #...
            yield movie

2、While循环实现

While 循环的思路是先从头开始爬取，使用parse()方法进行解析，然后递增页数构造下一页的URL请求，再循环解析，直到爬取完最后一页。这样不会发送无用的请求。但是难以利用scrapy异步的优势。这里构造下一页请求时需要利用parse()方法中的参数，可以使用meta方法来传递参数。

def start_requests(self):
    url_lists = []
    for i in range(len(self.genres)):
        dict_meta = {'tag_meta':self.tags[0],'page':0,'genre_meta':self.genres[i]}
        req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20*0,url_genres = self.genres[i]),meta = dict_meta)
        url_lists.append(req)
    return url_lists
    

def parse(self, response):
    # 判断该页是否爬完，数值定为20是因为无内容时长度是11
    if len(response.body) >= 20:
        movie = IDItem()
        dicts = json.loads(response.body)
        data_list = dicts['data']
        for data in data_list:
            movie['ids'] = data['id']
            #...
            yield movie
        
        # while循环构造url递归爬下一页
        tag_meta = response.meta['tag_meta']
        genre_meta = response.meta['genre_meta']
        page = response.meta['page']
        page += 1
        dict_meta = {'tag_meta':tag_meta,'page':page,'genre_meta':genre_meta}
        yield scrapy.Request(self.url.format(url_tags = tag_meta,url_start = 20*page,url_genres = genre_meta),callback=self.parse,meta=dict_meta)