selenium跳过webdriver检测并爬取天猫商品数据

本文介绍了如何利用selenium模拟浏览器行为,避免被检测为机器人,从而爬取天猫的商品数据。关键步骤包括禁用webdriver检测,设置浏览器不加载图片,并模拟用户滚动。通过分析HTML和CSS选择器,提取页面元素,实现对商品页码和商品信息的抓取。此外,还提供了安装和配置selenium的教程以及项目源代码链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

现在爬取淘宝,天猫商品数据都是需要首先进行登录的。上一节我们已经完成了模拟登录淘宝的步骤,所以在此不详细讲如何模拟登录淘宝。把关键点放在如何爬取天猫商品数据上。

过去我曾经使用get/post方式进行爬虫,同时也加入IP代理池进行跳过检验,但随着大型网站的升级,采取该策略比较难实现了。因为你使用get/post方式进行爬取数据,会提示需要登录,而登录又是一大难题,需要滑动验证码验证。当你想使用IP代理池进行跳过检验时,发现登录时需要手机短信验证码验证,由此可以知道旧的全自动爬取数据对于大型网站比较困难了(小型网站可以使用get/post,没检测或者检测系数较低)。

selenium是一款优秀的WEB自动化测试工具,所以现在采用selenium进行半自动化爬取数据。

编写思路

由于现在大型网站对selenium工具进行检测,若检测到selenium,则判定为机器人,访问被拒绝。所以第一步是要防止被检测出为机器人,如何防止被检测到呢?当使用selenium进行自动化操作时,在chrome浏览器中的consloe中输入windows.navigator.webdriver会发现结果为Ture,而正常使用浏览器的时候该值为False。所以我们将windows.navigator.webdriver进行屏蔽。
在代码中添加:

        options = webdriver.ChromeOptions()
        # 此步骤很重要,设置为开发者模式,防止被各大网站识别出来使用了Selenium
        options.add_experimental_option('excludeSwitches', ['enable-automation']) 
        self.browser = webdriver.Chrome(executable_path=chromedriver_path, options=options)

同时,为了加快爬取速度,我们将浏览器模式设置为不加载图片,在代码中添加:

        options = webdriver.ChromeOptions()
        # 不加载图片,加快访问速度
        options.add_experimental_option("prefs", {
   
   "profile.managed_default_content_settings.images": 2}) 

同时,为了模拟人工操作,我们在浏览网页的时候,模拟下滑,插入代码:

    # 模拟向下滑动浏览
    def swipe_down(self,second):
        for i in range(int(second/0.1)):
            js = 
### 游客模式下使用 Python Scrapy 和 Selenium 爬取天猫商品信息 在游客模式下爬取天猫商品信息可以通过结合 Scrapy 和 Selenium 实现。以下是具体的技术细节: #### 使用 Scrapy 定义 Item 结构 为了存储爬取到的数据,可以在 `items.py` 文件中定义一个自定义的 Item 类[^1]: ```python import scrapy class TaobaoItem(scrapy.Item): product_name = scrapy.Field() price = scrapy.Field() shop_name = scrapy.Field() sales_volume = scrapy.Field() link = scrapy.Field() ``` #### 编写 Spider 脚本 通过编写 Spider 来解析网页内容提取所需的信息。以下是一个简单的示例: ```python from scrapy import Spider from TestspiderSpider.items import TaobaoItem from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC class TaobaoSpider(Spider): name = 'taobao_spider' allowed_domains = ['tmall.com'] start_urls = ['https://list.tmall.com/search_product.htm?q=python'] def __init__(self, *args, **kwargs): super(TaobaoSpider, self).__init__(*args, **kwargs) # 初始化 Selenium WebDriver (需提前安装驱动程序) from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument('--headless') # 启用无头模式 self.driver = webdriver.Chrome(options=options) def parse(self, response): self.driver.get(response.url) try: wait = WebDriverWait(self.driver, 10) products = wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, "product-item"))) for product in products: item = TaobaoItem() item['product_name'] = product.find_element(By.CLASS_NAME, "product-title").text.strip() item['price'] = product.find_element(By.CLASS_NAME, "product-price").text.strip() item['shop_name'] = product.find_element(By.CLASS_NAME, "product-shop-name").text.strip() item['sales_volume'] = product.find_element(By.CLASS_NAME, "product-sales-volume").text.strip() item['link'] = product.find_element(By.TAG_NAME, "a").get_attribute('href') yield item finally: self.driver.quit() ``` #### 解决重定向问题 如果遇到 HTTP 301 或其他类型的跳转问题,可以设置 Scrapy 的请求参数以处理这些情况[^2]。例如,在 `settings.py` 中启用如下配置项: ```python REDIRECT_ENABLED = True HTTPERROR_ALLOWED_CODES = [301, 302] ``` #### 动态加载支持 Selenium 可用于模拟用户的交互行为,从而获取动态加载的内容。这使得即使是在游客模式下也可以成功抓取需要 JavaScript 执行才能显示的部分数据[^1]。 --- ### 注意事项 - **反爬机制**:天猫可能具有一定的反爬措施,因此建议适当降低请求频率,添加随机 User-Agent。 - **法律合规性**:确保遵守目标网站的服务条款以及当地法律法规,未经授权的大规模数据采集可能会引发法律责任。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值