爬虫进阶实战(selinum爬取淘宝商品类目)

原创

已于 2024-01-05 15:28:04 修改 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-09-11 14:45:35 首次发布

本文介绍了一次使用Selenium爬取淘宝商品类目的实战经历，包括下载和配置webdriver，绕过淘宝身份验证，爬取价格信息以及通过PyQt5封装GUI界面。此外，还提供了Selenium的基本概念、流程、用法和案例。

前言

这个单子给我深刻的教训就是不要随便接软件开发的活。因为软件开发的话需求就太多了，给我整的心力交瘁的。它不像单纯的数据爬取任务，人甲方只要你数据准确全面即可。

而且最重要的是，他么的最后他不满意，然后尾款没结。

这个单子标价800。需求也比较常见，爬淘宝的SKU，要求就是输入商铺链接，爬取下所有的SKU，还要求促销价。并且要求做一个界面出来。我用PyQt5做了个大致如下的界面。

功能演示如下：

QQ录屏20230626151832.gif

这个任务的要去爬出来指定淘宝或天猫链接内sku的价格和优惠价格，这个爬虫最常用的就是selinum直接爬下来。

首先查看自己的谷歌浏览器的版本

在chromedriver.storage.googleapis.com找对应版本的webdriver.放在你的工程目录中就行。

这里我尝试了N多方法，但是能够稳定通过的还是得靠手动扫码通过。这个绕过去的方法应该是有优化的，但是我尝试了我查到的方法全部没成功哈。

可能这也是老板没结尾款的原因吧，但我真心觉得加个扫码的步骤也不是多麻烦的事，毕竟是单独对应一个链接操作一次的嘛。

实现方法也比较简单，打开做个60秒的延迟判定，主要就是给你扫码留一段时间。

browser = webdriver.Chrome()
browser.implicitly_wait(60)
browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",