
一、背景介绍:你被自动化检测拒之门外了吗?
在使用 Selenium 或 Playwright 等浏览器自动化工具爬取数据时,经常会遇到「被检测」问题,尤其像 Amazon 这样反爬策略严密的网站。常见的检测机制之一就是检查 JavaScript 中的 navigator.webdriver 属性:
console.log(navigator.webdriver); // true:表明是自动化工具
因此,本文将带你深入了解如何在浏览器中底层修改该属性,并结合代理、Cookie、User-Agent 技术,实现一个能顺利爬取 Amazon 网站商品信息的反检测爬虫。
二、环境准备
1. 安装依赖
pip install undetected-chromedriver selenium requests
我们使用
undetected-chromedriver代替原生 Selenium 驱动,内置多种反检测机制,更适合应对大型网站的反爬。
2. 爬虫代理信息(请替换为你的真实账户信息)
# 配置代理 亿牛云爬虫代理 www.16yun.cn
proxy_host = "proxy.16yun.cn"
proxy_port = "8010"
proxy_user = "16YUN"
proxy_pass = "16IP"
三、核心步骤
✅ 第一步:配置无痕浏览器并隐藏 webdriver
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time
def create_stealth_driver(proxy_host, proxy_port, proxy_user, proxy_pass, user_agent

最低0.47元/天 解锁文章
512

被折叠的 条评论
为什么被折叠?



