Python如何爬取不确定页数的网页

本文探讨了在Python爬虫中处理不确定页数的网页问题,分析了三种常见的网页页数展现形式,并提供了两种解决方案:使用For循环和While循环。在Scrapy框架下,分别展示了这两种方法的实现,For循环可能会发送无用请求,而While循环能避免此问题但牺牲了Scrapy的异步优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

详细版本见个人博客:Python如何爬取不确定页数的网页


一、问题分析

我们通常遇到的网站页数展现形式有这么几种:

  • 第一种是直观地显示所有页数,显示在页面上。
  • 第二种是不直观显示网页总页数,需要抓包才可以看到,一般来说会有一个totalPage参数。
  • 第三种是不知道具体有多少页的网页。

对于,前两种形式的网页,爬取方法非常简单,使用 For 循环从首页爬到尾页就行了,第三种形式则不适用,因为不知道尾页的页数,所以循环到哪一页结束无法判断。

二、解决方案

这里有两种解决方式:

  • 第一种方式:使用 For 循环,尾页的页数设置一个较大的参数,足够循环爬完所有页面。
  • 第二种方法:使用 While 循环,可以结合 break 语句,也可以设起始循环判断条件为 True,从头开始循环爬取直到爬完最后一页,然后更改判断条件为 False 跳出循环,结束爬取。

三、实际案例——scrapy实现

1、For循环实现

Scrapy 中使用 For 循环递归爬取的思路非常简单,即先批量生成所有请求的 URL,包括最后无效的 URL,后续在 parse 方法中添加 if 判断过滤无效请求。

由于 Scrapy 依赖于Twisted框架,采用的是异步请求处理方式,可以边发送请求边解析内容,不会被阻塞,但是这种方法会发送很多无用请求。

def start_requests(self):
    url_lists = []
    for i in range(0,500):
        req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20*i,url_genres = self.genres[0]))
        url_lists.append(req)
    return url_lists
    

def parse(self, response):
    # 判断该页是否有内容,数值定为20是因为无内容时长度是11
    if len(response.body) >= 20:
        movie = IDItem()
        dicts = json.loads(response.body)
        data_list = dicts['data']
        for data in data_list:
            movie['ids'] = data['id']
            #...
            yield movie

2、While循环实现

While 循环的思路是先从头开始爬取,使用parse()方法进行解析,然后递增页数构造下一页的URL请求,再循环解析,直到爬取完最后一页。这样不会发送无用的请求。但是难以利用scrapy异步的优势。这里构造下一页请求时需要利用parse()方法中的参数,可以使用meta方法来传递参数。

def start_requests(self):
    url_lists = []
    for i in range(len(self.genres)):
        dict_meta = {'tag_meta':self.tags[0],'page':0,'genre_meta':self.genres[i]}
        req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20*0,url_genres = self.genres[i]),meta = dict_meta)
        url_lists.append(req)
    return url_lists
    

def parse(self, response):
    # 判断该页是否爬完,数值定为20是因为无内容时长度是11
    if len(response.body) >= 20:
        movie = IDItem()
        dicts = json.loads(response.body)
        data_list = dicts['data']
        for data in data_list:
            movie['ids'] = data['id']
            #...
            yield movie
        
        # while循环构造url递归爬下一页
        tag_meta = response.meta['tag_meta']
        genre_meta = response.meta['genre_meta']
        page = response.meta['page']
        page += 1
        dict_meta = {'tag_meta':tag_meta,'page':page,'genre_meta':genre_meta}
        yield scrapy.Request(self.url.format(url_tags = tag_meta,url_start = 20*page,url_genres = genre_meta),callback=self.parse,meta=dict_meta)

参考:Python For 和 While 循环爬取不确定页数的网页


详细版本见个人博客:Python如何爬取不确定页数的网页

Python中,可以使用BeautifulSoup、pandas和requests等库组合起来高效地爬取网页多页表格数据。以下是基本步骤: 1. **安装所需库**: 首先需要安装`beautifulsoup4`, `lxml`(BeautifulSoup的一个解析器),以及`pandas`。你可以使用pip安装: ``` pip install beautifulsoup4 lxml pandas requests ``` 2. **获取网页内容**: 使用`requests.get()`函数从目标网址获取HTML源码,例如: ```python import requests url = 'http://example.com/page1' response = requests.get(url) html_content = response.text ``` 3. **解析HTML**: 使用BeautifulSoup解析HTML内容,找到包含表格的部分: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'lxml') table = soup.find('table') # 根据实际页面结构选择合适的标签 ``` 4. **提取表格数据**: 使用BeautifulSoup的`.find_all()`方法提取表格行(tr)和列(td或th),然后转换成pandas DataFrame: ```python rows = table.find_all('tr') data_list = [] for row in rows: cols = row.find_all(['td', 'th']) cols_data = [col.text.strip() for col in cols] data_list.append(cols_data) df = pd.DataFrame(data_list) ``` 5. **处理分页**: 如果是多页数据,通常会在URL中包含页码参数。你需要遍历所有页数并调整URL来获取每一页的内容。例如,如果每页的URL模式是`http://example.com/page/<page_number>`,你可以用循环和切片来实现: ```python base_url = 'http://example.com/page/' pages = range(1, n_pages + 1) # 确定总页数n_pages dfs = [] # 用于存储所有页面的数据 for page_num in pages: url = base_url + str(page_num) response = requests.get(url) ... # 这里重复解析步骤直到将所有页面的数据合并到dfs列表中 all_data = pd.concat(dfs) ``` 6. **合并数据**: 将所有单页DataFrame合并成一个大表。 7. **清理数据**: 检查数据清洗,如删除空值、异常值等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值