如果17网更新了页面结构，代码需要调整吗？-优快云博客

本文链接：https://blog.youkuaiyun.com/2401_87849163/article/details/146095604

是的，如果17网更新了页面结构，爬虫代码可能需要进行相应的调整。这是因为爬虫依赖于目标网页的HTML结构来定位和提取数据，一旦页面结构发生变化，原有的选择器（如CSS选择器或XPath）可能无法正确匹配目标元素，导致爬虫无法正常工作。

以下是一些应对页面结构更新的策略和步骤，帮助你快速调整爬虫代码以适应新的页面结构：

一、检查页面结构的变化

（一）使用浏览器开发者工具

打开17网的目标页面，使用浏览器的开发者工具（通常可以通过按F12键或右键点击页面元素并选择“检查”来打开）。
检查HTML结构的变化，特别是与商品列表相关的部分。例如：
- 商品列表的容器是否从<div>变成了<ul>或<ol>？
- 商品项的类名是否发生了变化？
- 商品标题、价格、链接等信息的标签或类名是否被修改？

（二）对比旧结构与新结构

将更新后的HTML结构与之前的结构进行对比，找出具体的变化点。例如：

旧结构：

<div class="product-item">
    <h3 class="product-title">商品名称</h3>
    <span class="product-price">价格</span>
    <a href="商品链接" class="product-link">查看详情</a>
</div>

预览

新结构：

<li class="product-item">
    <div class="product-info">
        <h4 class="product-title">商品名称</h4>
        <p class="product-price">价格</p>
        <a href="商品链接" class="product-link">查看详情</a>
    </div>
</li>

预览

二、调整爬虫代码

根据页面结构的变化，调整代码中的选择器和解析逻辑。

（一）更新CSS选择器

根据新的HTML结构，更新BeautifulSoup或Jsoup中的选择器。例如：

旧代码：

product_elements = soup.select("div.product-item")
title = product_element.select("h3.product-title")[0].text.strip()
price = product_element.select("span.product-price")[0].text.strip()
link = product_element.select("a.product-link")[0]['href']

新代码：

product_elements = soup.select("li.product-item")
title = product_element.select("h4.product-title")[0].text.strip()
price = product_element.select("p.product-price")[0].text.strip()
link = product_element.select("a.product-link")[0]['href']

（二）调整HTML解析逻辑

如果页面结构变化较大，可能需要重新调整解析逻辑。例如，如果商品信息被嵌套在多个层级中，需要逐步解析每个层级。

（三）处理动态加载的内容

如果页面结构更新后，商品数据通过JavaScript动态加载，requests和BeautifulSoup可能无法直接获取到完整的HTML内容。此时，可以考虑使用Selenium来模拟浏览器行为，获取动态加载后的页面内容。

示例代码（使用Selenium）：

from selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import time

def get_html(url):
    options = webdriver.ChromeOptions()
    options.add_argument("--headless")  # 无头模式
    driver = webdriver.Chrome(options=options)
    driver.get(url)
    time.sleep(2)  # 等待页面加载
    html = driver.page_source
    driver.quit()
    return html

def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    products = []
    product_elements = soup.select("li.product-item")
    for product_element in product_elements:
        title = product_element.select("h4.product-title")[0].text.strip()
        price = product_element.select("p.product-price")[0].text.strip()
        link = product_element.select("a.product-link")[0]['href']
        products.append({
            "title": title,
            "price": price,
            "link": link
        })
    return products