网络爬虫系列（3）：分页抓取与数据存储

原创已于 2025-02-27 10:28:24 修改 · 1.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #数据库 #python

于 2025-02-26 08:23:35 首次发布

网路爬虫系列专栏收录该内容

5 篇文章

订阅专栏

网络爬虫系列（3）：分页抓取与数据存储

在前两篇文章中，我们介绍了如何抓取静态网页和动态网页的数据，并探讨了如何应对反爬虫机制。在本篇文章中，我们将深入讨论如何实现分页抓取和如何有效地存储抓取的数据。分页抓取是很多网站常见的功能，尤其在数据量大的情况下，通过分页加载的数据往往被用于展示，如何提取这些分页数据，并将数据保存到合适的存储介质中是爬虫开发中的关键步骤。

如何实现分页抓取？

分页抓取常见于论坛、商品列表、新闻网站等，其中内容分布在多个页面中。为了抓取所有数据，我们需要遍历这些分页。

1. 分析分页链接结构

在大多数情况下，分页链接的结构是固定的，比如：

https://example.com/page=1
https://example.com/page=2
https://example.com/page=3

我们需要分析网页中分页部分的结构，以便编写代码进行自动化抓取。通过检查HTML代码或观察请求的URL，可以得知分页的规律。

2. 使用循环抓取每一页

在抓取过程中，我们可以使用for或while循环遍历所有分页，直到到达最后一页。

示例：抓取分页数据

假设我们要抓取一个商品列表网站的数据，网站的分页链接格式为https://example.com/products?page=1，我们可以编写以下代码来抓取所有分页的数据：

import requests
from bs4 import BeautifulSoup

# 定义抓取的基础URL
base_url = "https://example.com/products?page="

# 定义最大页数（可以根据实际情况调整）
max_page = 5

# 循环遍历每一页
for page in range(1, max_page + 1):
    # 构建每一页的URL
    url = base_url + str(page)
    
    # 发送GET请求
    response = requests.get(url)
    
    # 判断请求是否成功
    if response.status_code == 200:
        # 解析页面内容
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 提取商品数据（根据页面结构调整）
        products = soup.find_all('div', class_='product-item')
        
        for product in products:
            # 提取商品名称和价格
            name = product.find('h3').text.strip()
            price = product.find('span', class_='price').text.strip()
            print(f"商品名称: {name}, 价格: {price}")
    else:
        print(f"第{page}页请求失败，状态码：{response.status_code}")

代码解析

分页URL结构：通过base_url和分页数字拼接出每一页的URL。
循环抓取：使用for循环遍历每一页，发送HTTP请求。
数据提取：使用BeautifulSoup解析页面，并提取商品的名称和价格。
请求判断：判断请求是否成功，避免抓取失败的页面。

如何存储抓取的数据？

抓取到的数据通常需要存储到合适的格式中以便后续分析。常见的存储方式有：

CSV文件：适用于结构化数据，方便查看和分析。
数据库：对于大规模数据抓取，数据库是更合适的存储方式。
JSON格式：适用于复杂或层次化的数据结构。

1. 存储数据到CSV文件

在Python中，可以使用csv库将抓取的数据存储为CSV文件，方便后续分析和处理。

示例：将抓取的数据保存到CSV文件

import csv
import requests
from bs4 import BeautifulSoup

# 定义抓取的基础URL
base_url = "https://example.com/products?page="

# 打开CSV文件，准备写入数据
with open('products.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['商品名称', '价格'])  # 写入表头
    
    # 循环抓取分页数据
    for page in range(1, 6):
        url = base_url + str(page)
        response = requests.get(url)
        
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'html.parser')
            products = soup.find_all('div', class_='product-item')
            
            for product in products:
                name = product.find('h3').text.strip()
                price = product.find('span', class_='price').text.strip()
                writer.writerow([name, price])  # 将数据写入CSV文件
        else:
            print(f"第{page}页请求失败，状态码：{response.status_code}")

代码解析

CSV文件写入：使用csv.writer()将数据写入CSV文件，并设置表头。
数据抓取：通过与前述代码相同的方式抓取商品数据，并将商品名称和价格写入CSV文件。
文件操作：在写入数据时，使用with open()确保文件被正确打开和关闭。

2. 存储数据到数据库

如果抓取的数据量较大，存储到数据库是更合适的选择。我们可以使用SQLite、MySQL或MongoDB等数据库进行存储。

示例：将数据存储到SQLite数据库

import sqlite3
import requests
from bs4 import BeautifulSoup

# 创建SQLite数据库连接
conn = sqlite3.connect('products.db')
cursor = conn.cursor()

# 创建商品表
cursor.execute('''
CREATE TABLE IF NOT EXISTS products (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    name TEXT,
    price TEXT
)
''')

# 定义抓取的基础URL
base_url = "https://example.com/products?page="

# 循环抓取分页数据
for page in range(1, 6):
    url = base_url + str(page)
    response = requests.get(url)
    
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        products = soup.find_all('div', class_='product-item')
        
        for product in products:
            name = product.find('h3').text.strip()
            price = product.find('span', class_='price').text.strip()
            
            # 插入数据到数据库
            cursor.execute("INSERT INTO products (name, price) VALUES (?, ?)", (name, price))
        
        conn.commit()  # 提交事务
    else:
        print(f"第{page}页请求失败，状态码：{response.status_code}")

# 关闭数据库连接
conn.close()