教你的采集程序看懂“伪装”的网页内容

原创于 2025-09-09 10:42:41 发布 · 455 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#采集程序 #数据采集 #电商 #数字营销 #价格 #评论 #爬虫代理

爬虫代理同时被 3 个专栏收录

383 篇文章

订阅专栏

python

263 篇文章

订阅专栏

代理IP

260 篇文章

订阅专栏

爬虫代理

前言：为什么要理解“伪装网页”？

在电商与数字营销领域，团队在制定市场推广策略时，越来越依赖于 数据驱动：

运营同事需要随时掌握 竞品的价格调整，方便制定促销节奏；
品牌部门需要观察 用户的反馈和评论趋势，及时优化内容；
投资与分析人员会跟踪 畅销品类与供需状态，辅助商业决策。

但现实中，很多大型电商站点（以 Amazon 为例），会采用多层次的 页面展示策略：
用户在浏览器中能看到的价格、库存和评价，并不一定直接写在初始 HTML 里，而是由 额外的接口或脚本 在后续动态加载。
如果只是简单抓取网页源代码，结果往往会发现：要么信息缺失，要么拿到的只是“壳子”。

这篇文章将通过 Amazon 案例，用 反面教材型的方式 展示常见错误，并逐步说明如何优化请求头配置、借助代理服务，以及分析数据来源，从而获取到真正有用的部分信息。

一、错误案例

初学者常见的写法：

import requests

url = "https://www.amazon.com/dp/B0CGRL44VG"
resp = requests.get(url)
print(resp.text[:500])  # 打印部分HTML

运行结果会发现：

页面里找不到价格、评论等关键内容；
代码片段里全是 <script>；
有时甚至返回验证页面。

原因在于：页面的主要数据并不是静态写死在 HTML 里，而是通过 延迟加载 的方式呈现。

二、问题所在

关键信息缺失 —— 源码看不到真正数据。
访问被限制 —— 系统可能判断为非常规访问，返回验证页面。
效率受限 —— 多次请求也得不到目标结果。

三、修复思路

1. 引入代理服务

对于访问频繁的情况，可以接入第三方代理服务（这里以爬虫代理为例）：

#设置爬虫代理（参考亿牛云示例 www.16yun.cn）
proxy_host = "proxy.16yun.cn"
proxy_port = "3100"
proxy_user = "16YUN"
proxy_pass = "16IP"

proxy_meta = f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"

proxies = {
    "http": proxy_meta,
    "https": proxy_meta,
}

这样能减少因单一来源访问过多而触发的阻断。

2. 模拟正常用户访问

在请求中补充常见的请求头字段：

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/115.0 Safari/537.36",
    "Accept-Language": "en-US,en;q=0.9",
    "Cookie": "your_cookie_if_needed"
}

url = "https://www.amazon.com/dp/B0CGRL44VG"
resp = requests.get(url, headers=headers, proxies=proxies, timeout=10)

print(resp.status_code)
print(resp.text[:500])

这样能避免部分验证，但仍旧无法直接看到核心字段。

3. 分析数据来源

通过浏览器开发工具观察，可以发现商品价格和评论往往来源于特定接口。
例如：

https://www.amazon.com/gp/aod/ajax/ref=aod_f_new?asin=B0CGRL44VG

直接请求这个接口：

import re

api_url = "https://www.amazon.com/gp/aod/ajax/ref=aod_f_new?asin=B0CGRL44VG"
resp = requests.get(api_url, headers=headers, proxies=proxies, timeout=10)

html = resp.text
prices = re.findall(r'\$\d+\.\d{2}', html)

print("示例价格:", prices[:3])