爬虫进阶实战(selinum爬取淘宝商品类目)

本文介绍了一次使用Selenium爬取淘宝商品类目的实战经历,包括下载和配置webdriver,绕过淘宝身份验证,爬取价格信息以及通过PyQt5封装GUI界面。此外,还提供了Selenium的基本概念、流程、用法和案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

这个单子给我深刻的教训就是不要随便接软件开发的活。因为软件开发的话需求就太多了,给我整的心力交瘁的。它不像单纯的数据爬取任务,人甲方只要你数据准确全面即可。

而且最重要的是,他么的最后他不满意,然后尾款没结。

项目需求

这个单子标价800。需求也比较常见,爬淘宝的SKU,要求就是输入商铺链接,爬取下所有的SKU,还要求促销价。并且要求做一个界面出来。我用PyQt5做了个大致如下的界面。

1687763728543.jpg

功能演示如下:

QQ录屏20230626151832.gif

这个任务的要去爬出来指定淘宝或天猫链接内sku的价格和优惠价格,这个爬虫最常用的就是selinum直接爬下来。

一、下载seleinum的谷歌webdriver驱动

首先查看自己的谷歌浏览器的版本

image.png

chromedriver.storage.googleapis.com找对应版本的webdriver.放在你的工程目录中就行。

image.png

二、selenium绕过淘宝的身份验证

这里我尝试了N多方法,但是能够稳定通过的还是得靠手动扫码通过。这个绕过去的方法应该是有优化的,但是我尝试了我查到的方法全部没成功哈。

可能这也是老板没结尾款的原因吧,但我真心觉得加个扫码的步骤也不是多麻烦的事,毕竟是单独对应一个链接操作一次的嘛。

实现方法也比较简单,打开做个60秒的延迟判定,主要就是给你扫码留一段时间。

browser = webdriver.Chrome()
browser.implicitly_wait(60)
browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
                       {"source": """Object.defineProperty(navigator, 'webdriv
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值