selenium跳过webdriver检测并爬取天猫商品数据

最新推荐文章于 2023-09-11 16:31:16 发布

云外孤鸟

最新推荐文章于 2023-09-11 16:31:16 发布

阅读量2.1k

点赞数 3

CC 4.0 BY-SA版权

文章标签： selenium python 淘宝天猫爬虫

本文链接：https://blog.youkuaiyun.com/qq_33825817/article/details/88537326

本文介绍了如何利用selenium模拟浏览器行为，避免被检测为机器人，从而爬取天猫的商品数据。关键步骤包括禁用webdriver检测，设置浏览器不加载图片，并模拟用户滚动。通过分析HTML和CSS选择器，提取页面元素，实现对商品页码和商品信息的抓取。此外，还提供了安装和配置selenium的教程以及项目源代码链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

简介

简介

现在爬取淘宝，天猫商品数据都是需要首先进行登录的。上一节我们已经完成了模拟登录淘宝的步骤，所以在此不详细讲如何模拟登录淘宝。把关键点放在如何爬取天猫商品数据上。

过去我曾经使用get/post方式进行爬虫，同时也加入IP代理池进行跳过检验，但随着大型网站的升级，采取该策略比较难实现了。因为你使用get/post方式进行爬取数据，会提示需要登录，而登录又是一大难题，需要滑动验证码验证。当你想使用IP代理池进行跳过检验时，发现登录时需要手机短信验证码验证，由此可以知道旧的全自动爬取数据对于大型网站比较困难了(小型网站可以使用get/post，没检测或者检测系数较低)。

selenium是一款优秀的WEB自动化测试工具，所以现在采用selenium进行半自动化爬取数据。

编写思路

由于现在大型网站对selenium工具进行检测，若检测到selenium，则判定为机器人，访问被拒绝。所以第一步是要防止被检测出为机器人，如何防止被检测到呢？当使用selenium进行自动化操作时，在chrome浏览器中的consloe中输入windows.navigator.webdriver会发现结果为Ture，而正常使用浏览器的时候该值为False。所以我们将windows.navigator.webdriver进行屏蔽。
在代码中添加：

        options = webdriver.ChromeOptions()
        # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium
        options.add_experimental_option('excludeSwitches', ['enable-automation']) 
        self.browser = webdriver.Chrome(executable_path=chromedriver_path, options=options)

同时，为了加快爬取速度，我们将浏览器模式设置为不加载图片，在代码中添加：

        options = webdriver.ChromeOptions()
        # 不加载图片,加快访问速度
        options.add_experimental_option("prefs", {
   
   "profile.managed_default_content_settings.images": 2})

同时，为了模拟人工操作，我们在浏览网页的时候，模拟下滑，插入代码：

    # 模拟向下滑动浏览
    def swipe_down(self,second):
        for i in range(int(second/0.1)):
            js =

最低0.47元/天解锁文章

200万优质内容无限畅学