
爬虫实战进阶
文章平均质量分 84
以优质爬虫案例讲解,文章包含“完整代码”与“爬取方式教学”,逐步深入爬虫开发各个环节,掌握爬虫的性能优化思路,打造便捷式工作方式,提升工作效率和编程思维能力——持续更新,值得订阅。
优惠券已抵扣
余额抵扣
还需支付
¥69.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
写python的鑫哥
持续更新Python干货知识,【可定制Python爬虫需求】,记得关注,有需求可私信。
专栏涵盖[完整代码]以及[详细的步骤教程],订阅专栏者提供1对1答疑服务。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
JS逆向-7881游戏平台Lb-Sign参数和Lb-Timestamp参数
本文是该专栏的第79篇,后面会持续分享python爬虫干货知识。本文以7881游戏平台为例,通过JS逆向获取它的lb-sign参数和lb-timestamp参数生成规律。针对lb-sign和lb-timestamp两个参数具体的“逆向”思路逻辑,笔者将在本文进行详细说明,并且将在正文结合“完整代码”来详细介绍。废话不多说,具体细节部分以及详细思路逻辑,跟着笔者直接往下看正文部分。(附带完整代码)原创 2025-05-10 16:21:31 · 907 阅读 · 0 评论 -
JS逆向-233网校sid参数和sign参数
本文是该专栏的第78篇,后面会持续分享python爬虫干货知识。本文以233网校为例,通过JS逆向获取它的sid参数和sign参数生成规律。废话不多说,具体的“逆向”思路逻辑,笔者将会详细介绍每个步骤,并且将在正文结合“完整代码”来详细介绍。具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2025-03-02 22:59:46 · 944 阅读 · 0 评论 -
Python爬虫-破解字体加密技术
本文是该专栏的第77篇,后面会持续分享python爬虫干货知识。字体加密是一种常见的反爬虫技术,通过自定义字体文件和字符映射来保护网页内容,防止爬虫直接获取文本信息。而本文,笔者将针对“如何解决目标平台的字体加密技术,并获取目标数据”,进行详细介绍一种“通用型字体反爬策略”。废话不多说,具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2025-02-23 23:41:20 · 1418 阅读 · 0 评论 -
如何用selenium来链接并打开比特浏览器进行自动化操作
本文是该专栏的第76篇,后面会持续分享python爬虫干货知识。本文,笔者将基于“比特浏览器”,通过selenium来实现链接并打开比特浏览器,进行相关的“自动化”操作。值得一提的是,在本专栏之前,笔者有详细介绍过“使用selenium或者pyppeteer(puppeteer)来链接并打开指纹浏览器AdsPower”的方法和详细教程。而针对通过selenium来实现链接并打开“比特浏览器”的具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2025-01-19 23:17:28 · 1158 阅读 · 0 评论 -
Python如何添加“鼠标移动轨迹”来解决“滑块验证码”(11)
本文是该专栏的第75篇,后面会持续分享python爬虫干货知识。我们在本专栏的上一篇文章中,详细介绍了利用Python解决Alibaba平台的“滑块验证码”问题。而本文,笔者将在该问题的基础上,利用Python结合“鼠标移动轨迹”,来解决该平台在注册过程中遇到的“滑块验证码”问题。当然,这也算是解决Alibaba平台“滑块验证码”的“进阶版”实战操作讲解。废话不多说,具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2025-01-08 14:42:18 · 274 阅读 · 0 评论 -
Python如何解决Alibaba注册验证码(10)
本文是该专栏的第74篇,后面会持续分享python爬虫干货知识。我们在通过Alibaba平台进行账号注册的时候,一般会遇到平台“滑块验证码”干扰问题。而本文,笔者将以Alibaba平台为例子。基于python,为你详细介绍Alibaba平台“滑块验证码”的解决方法。具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2025-01-03 00:19:16 · 231 阅读 · 0 评论 -
Python如何正确解决reCaptcha验证码(9)
本文是该专栏的第73篇,后面会持续分享python爬虫干货知识。我们在处理某些国内外平台项目的时候,相信很多同学或多或少都见过如下图所示的reCaptcha验证码。而本文,笔者将重点来介绍在实战项目中,遇到上述中的“reCaptcha验证码”,如何正确去处理并解决这个验证码问题。废话不多说,具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2024-12-19 23:58:20 · 456 阅读 · 0 评论 -
JS逆向-某宝sign参数
本文是该专栏的第72篇,后面会持续分享python爬虫干货知识。本文以某宝电商平台商品详情页数据为例,通过JS逆向获取它的sign参数生成规律。接下来,废话不多说,具体的“逆向”思路逻辑,笔者将会详细介绍每个步骤,并且将在正文结合“完整代码”来详细介绍。具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2024-08-25 20:37:59 · 322 阅读 · 0 评论 -
Python爬虫-亚马逊商品详情页Sponsored广告ASIN数据
本文是该专栏的第71篇,后面会持续分享AI大模型干货知识。接触过亚马逊的同学,应该都知道,商品详情页面会有一些Sponsored广告(文中简称为:sp广告)。而本文,笔者将以亚马逊的商品详情页Sponsored广告为例,基于爬虫实现获取详情页Sponsored广告ASIN数据。废话不多说,具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2024-08-25 20:08:27 · 446 阅读 · 0 评论 -
Python爬虫-淘宝搜索热词数据
本文是该专栏的第70篇,后面会持续分享python爬虫干货知识。在本专栏之前,笔者有详细针对“亚马逊Amazon搜索热词”数据采集的详细介绍,对此感兴趣的同学,可以往前翻阅《Python爬虫-某跨境电商(AM)搜索热词》进行查看。而在本文,笔者将以淘宝为例,获取淘宝的“搜索热词”数据。废话不多说,具体细节部分以及详细的实现思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2024-07-20 21:38:21 · 2220 阅读 · 0 评论 -
JS逆向-B站评论数据w_rid参数和wts参数
本文是该专栏的第69篇,后面会持续分享python爬虫干货知识。本文以B站的评论数据为例,通过JS逆向获取其中的w_rid参数以及wts参数生成规律。具体的“逆向”思路逻辑,笔者将会详细介绍每个步骤,并且将在正文结合“完整代码”来详细介绍。废话不多说,具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2024-06-02 14:25:18 · 1507 阅读 · 0 评论 -
Python爬虫-京东商品评论数据
本文是该专栏的第68篇,后面会持续分享python爬虫干货知识。在本专栏之前,笔者有详细介绍京东滑块验证码的解决方法,感兴趣的同学,可以直接翻阅文章《Python如何解决“京东滑块验证码”(5)》进行查看。而本文,笔者以京东商品详情页的评论数据为例,通过python实现采集商品详情页的评论数据。废话不多说,具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带完整代码)原创 2024-04-14 20:13:59 · 1743 阅读 · 1 评论 -
Python如何解决“滑动拼图”验证码(8)
本文是该专栏的第67篇,后面会持续分享python爬虫干货知识。做过爬虫项目的同学,或多或少都会接触到一些需要解决验证码才能正常获取数据的平台。在本专栏之前的文章中,笔者有详细介绍通过python来解决多种“验证码”(点选验证,图文验证,滑块验证,滑块缺失验证等)的方法,对此领域,感兴趣的同学可以在本专栏往前翻阅并查看。而本文,笔者将重点来介绍在处理爬虫项目的时候,遇到“滑动拼图”验证码,使用python如何正确去处理并解决这个问题。具体细节部分以及详细思路逻辑,笔者将在正文结合完整代码进行详细说明。(附带原创 2024-04-04 13:18:57 · 913 阅读 · 0 评论 -
如何用selenium或pyppeteer来链接并打开指纹浏览器AdsPower【2025年最新版】
本文是该专栏的第66篇,后面会持续分享python爬虫干货知识。在本专栏之前,针对使用Python的Selenium或者Pyppeteer来链接并打开AdsPower指纹浏览器的方法,笔者前面都有详细介绍并附带完整操作代码。感兴趣的同学,可以往前翻阅查看。由于selenium目前的版本已经升级到 4.0+版本,之前笔者在文章中介绍的selenium操作方法是基于4.0+版本之前的,导致部分selenium启动操作可能会报错。所以笔者在本文中,将基于selenium最新的4.0+ 版本以及pyppeteer原创 2024-03-07 09:00:00 · 1940 阅读 · 4 评论 -
Python爬虫-批量爬取微信公众号的文章内容并保存(2)
本文是该专栏的第65篇,后面会持续分享python爬虫干货知识。在本专栏上一篇文章《Python爬虫-微信公众号的文章数据(1)》中,有详细介绍使用爬虫批量采集公众号文章的方法。而本文,笔者基于在上篇文章的基础上,再新增一个功能——通过python爬虫来实现批量爬取公众号的文章内容并保存到本地。具体细节部分以及详细思路逻辑,跟着笔者直接往下看正文内容。(附带完整代码)原创 2024-02-28 09:00:00 · 1362 阅读 · 0 评论 -
Python爬虫-微信公众号的文章数据(1)
本文是该专栏的第64篇,后面会持续分享python爬虫干货知识。在处理爬虫项目的时候,相信或多或少的同学都遇到过这样的需求,需要你通过爬虫来采集对应的微信公众号下面的全部文章。那么,对于这样的问题,我们使用python要怎么处理呢?而本文,笔者将结合实际项目案例以及完整代码为你详细介绍。具体细节部分,以及详细思路和逻辑代码,跟着笔者直接往下看正文详细内容。(附带完整代码)原创 2024-02-26 09:00:00 · 675 阅读 · 0 评论 -
Python如何正确计算出“滑块验证码”的“缺失距离”(7)
本文是该专栏的第63篇,后面会持续分享python爬虫干货知识。在本专栏之前,笔者有详细介绍过关于python如何解决“滑块缺失验证码”的方法,感兴趣的同学可以在本专栏往前翻阅并查看。而本文,笔者将重点来介绍在处理爬虫项目的时候,遇到“滑块缺失的验证码”需要滑动的情况要怎么解决?总的来说,我们首先需要获取验证码的背景图和验证码的滑块图,然后计算出滑块的移动缺失距离,最后让程序自动去滑动它的缺失距离即可。具体细节部分,以及详细思路和逻辑代码,跟着笔者直接往下看正文详细内容。(附带完整代码)原创 2024-02-18 09:00:00 · 467 阅读 · 0 评论 -
Python爬虫-某XX书详情页数据
本文是该专栏的第62篇,后面会持续分享python爬虫干货知识。通常情况下,现在的社媒平台都有列表页面,详情页面以及个人主页信息页面等。大众熟知的搜索结果页,话题综合页面等集中显示在列表页面;而我们通常去点击的某条动态或者笔记等,打开显示的信息就类似于详情页面。而本文,笔者以某书详情页面为例,如下图所示,获取对应详情页的数据。具体的实现思路逻辑,以及注意事项,笔者将在正文结合“完整代码”进行详细说明。接下来,跟着笔者直接往下看正文详细内容。(附带完整代码)原创 2024-01-22 09:00:00 · 1774 阅读 · 0 评论 -
Python爬虫-批量爬取亚马逊Sponsored广告商品和非Sponsored广告商品
本文是该专栏的第61篇,后面会持续分享python爬虫干货知识。在处理亚马逊项目的时候,相信有些同学会或多或少的遇到这样的需求——根据“目标关键词”,爬取搜索结果页下面的Sponsored广告和非Sponsored广告商品,也就是通常所说的sp广告(付费产品广告Sponsored Products)。而这里所说的sp广告就是推广付费的商品,并非自然排名的商品。正如上面提到的,有时候就需要根据目标关键词,来批量爬取搜索结果下面的sp广告和非sp广告。具体细节部分,以及详细思路和逻辑代码,跟着笔者直接往下看正文原创 2023-12-13 09:00:00 · 606 阅读 · 0 评论 -
JS逆向-mytoken之code参数
本文是该专栏的第60篇,后面会持续分享python爬虫干货知识。本文以mytoken为例,通过js逆向获取其code参数的生成规律。具体的“逆向”思路逻辑,笔者将会详细介绍每个步骤,并且将在正文结合“完整代码”进行详细说明。拿到目标url之后,接下来直接开门见山。使用浏览器打开目标url之后,通过Shift+Ctrl+I组合键或者F12启动开发者工具“控制台”。原创 2023-12-01 09:00:00 · 881 阅读 · 0 评论 -
Python如何正确将“爬虫数据”以json格式进行保存
本文是该专栏的第59篇,后面会持续分享python爬虫干货知识。处理爬虫项目的时候,相信很多同学都会遇到这样的需求。需要你将爬虫抓取到的数据以json格式进行存储,尤其需要将数据存入mongo数据库的时候。以csv,txt,mysql等形式进行存储,本专栏前面都有详细介绍,在本文中笔者就不过多详述。而本文,笔者将详细介绍针对“爬虫抓取的数据以json格式进行存储”。下面,笔者将以某网的爬虫案例为例子,将抓取的数据以json格式进行保存。具体的逻辑和实现思路,直接往下看正文详细内容。(附带完整代码)为了更详细原创 2023-11-11 08:00:00 · 1725 阅读 · 0 评论 -
Python爬虫-爬取文档内容,如何去掉文档中的表格,并保存正文内容
本文是该专栏的第58篇,后面会持续分享python爬虫干货知识。做过爬虫项目的同学,可能或多或少爬取过文档数据,比如说“政务网站,新闻网站,小说网站”等平台的文档数据。爬取文档数据,笔者这里就不过多详述,而本文,笔者将主要介绍在爬取文档数据的过程中,遇到文档的正文内容含有表格的情况要怎么去除掉表格,并将正文保存。具体实现思路,跟着笔者直接往下看正文详细内容。(附带完整代码)在目标正文中,假设我们想要的数据是正文的文本数据,但是正文中却含有表格,我们想要获取文本的正文数据,并将正文中的表格去除掉,要怎么做呢?原创 2023-09-07 00:18:31 · 677 阅读 · 0 评论 -
如何用selenium或pyppeteer来启动多个AdsPower窗口
关于selenium或pyppeteer来启动打开adspower浏览器的方法,笔者在本专栏前面有详细介绍过,感兴趣的同学可往前翻阅《如何用selenium或pyppeteer来链接并打开指纹浏览器AdsPower》,文章内容包含完整代码与教学。而本文,将针对selenium,pyppeteer对adspower浏览器进行多开窗口的实现进行详细介绍。由于在本专栏前面,笔者都有详细介绍adspower和selenium以及pyppeteer的结合使用方法,本文这里对于基础的使用就不做过多详述,接下来将直奔本原创 2023-08-29 22:57:27 · 3023 阅读 · 0 评论 -
JS逆向-某招聘平台token
本文是该专栏的第56篇,后面会持续分享python爬虫干货知识,记得关注。通常情况下,JS调试相对方便,只需要chrome或者一些抓包工具,扩展插件,就可以顺利完成逆向分析。而本文以某招聘平台为例,针对token参数被加密做js逆向处理。废话不多说,跟着笔者直接往下看正文详细内容。(附带完整代码)直接使用浏览器(笔者这里用的Google)按F12启动开发者工具,并刷新页面,知道了token的生成规律,接下来只需要在本地模式生成token的值即可。原创 2023-08-17 23:03:14 · 2168 阅读 · 0 评论 -
Python如何解决Amazon亚马逊“图文验证码”识别(6)
本文是该专栏的第55篇,后面会持续分享python爬虫干货知识,记得关注。在本专栏前面,笔者有详细介绍多种登录验证码识别方法,感兴趣的同学可往前翻阅。而本文,笔者将单独详细介绍亚马逊Amazon的图文识别验证码的解决方法。如上图所示,访问或请求频次达到一定程度之后,会触发平台验证码。针对该问题,用三行代码即可解决。废话不多说,跟着笔者直接往下看正文详细方法。(附带完整代码)亚马逊Amazon的图文验证码的解决完整思路,首先需要确定是否出现图文验证码,如果确定出现图文验证码就需要捕获该图文链接并将图片保存到本原创 2023-08-05 12:32:44 · 1862 阅读 · 0 评论 -
Python如何正确解决爬虫过程中的Cookie失效问题?
本文是该专栏的第54篇,后面会持续分享python爬虫干货知识,记得关注。在python爬虫项目中,Cookie是一种用于在客户端和服务器之间传递信息的技术。在爬取某些网站的时候,可能会需要登录才能正常获取到数据,这个时候就需要用到cookie来解决。通常情况下,需要将cookie添加到请求头中,才能发挥cookie的作用。但是,并不是所有的cookie都能持久使用,某些网站的cookie有时效性,甚至有效使用时长非常短暂。达到一定时间后,cookie就会失效,失效后的cookie是不能再使用的,只能更换新原创 2023-07-26 10:03:26 · 4627 阅读 · 0 评论 -
Python爬虫-进入浏览器控制台就出现无限debugger,怎么解决?
本文是该专栏的第53篇,后面会持续分享python爬虫干货知识,记得关注。对于控制台出现无限debugger的情况,笔者之前在“JS逆向-常见反调试之“无限Debugger”,怎么解决?”里面有详细介绍过。而本文,针对控制台调试出现无限debugger的另一种情况,笔者来详细介绍该问题的解决方法。使用浏览器打开链接之后,直接F12键或者ctrl+shift+I组合键,启动控制台。会发现无论怎么重试,只要进入控制台就会自动进入无限debugger模式。出现这种情况,有时也会给我们抓包带来一些影响。而针对该问原创 2023-07-20 22:29:58 · 3780 阅读 · 0 评论 -
Python爬虫-某家网平台二手房
成功运行上述代码,会在本地生成city_house.csv数据表,而爬取的二手房信息就保存在该csv数据表中。需要注意的是,笔者这里的目标城市以“武汉”为例,所以当你选择目标城市的时候,记得更改目标url的城市信息。下面,只需要完善数据解析和保存数据两部分的功能即可。本文是该专栏的第52篇,后面会持续分享python爬虫干货知识,记得关注。”,感兴趣的同学,可翻阅查看。至于其他城市,都有对应的字母编码,这点需要注意。需要注意的是,这里的wh表示“武汉”。原创 2023-06-16 14:11:00 · 1573 阅读 · 3 评论 -
Python如何解决“京东滑块验证码”(5)
这里需要注意的是,拿到滑块的缺口距离之后,代码中不要立刻去实现拖到滑块按钮,否则会触发平台检测封控。也就是说,先模拟鼠标左键的点击操作,然后按住滑块不要松开进行拖到,最后再将鼠标左键松开。需要注意的是,解决京东滑块验证的方法,笔者这里使用的是pyppeteer,如果你已安装该库,请忽略该步骤,没有安装的同学,使用如下方法安装即可,计算偏移值的具体方法这里就不详述了,方法和快手滑块的类似,在验证码系列的上一篇有单独介绍过。针对验证码的解决办法,笔者在本专栏之前有单独介绍过,感兴趣的同学可往前翻阅。原创 2023-06-03 15:41:02 · 3169 阅读 · 3 评论 -
JS逆向-加密参数定位方法总结
本文是该专栏的第50篇,后面会持续分享python爬虫干货知识,记得关注。笔者将目前常用的几种方法总结为上下两篇,可以说,每种方法都有其独特的运用逻辑,只有灵活运用这些加密参数定位方法,才能有效的提高逆向效率,感兴趣的同学记得关注。具体的使用方法,首先需要先找到请求接口地址,然后再进入lnitiator,点击第一个Request call stack参数,进入到JS文件之后,在跳转行上打上断点,紧接着刷新页面等待调试。举个例子,加密参数的目标关键词为sign,那么可以直接全局搜索sign原创 2023-05-29 11:57:19 · 2042 阅读 · 0 评论 -
Python爬虫-快手photoId
本文是该专栏的第49篇,后面会持续分享python爬虫干货知识,记得关注。笔者在本专栏的上一篇,有详细介绍平台视频播放量的方法。与该平台相关联的文章,笔者已整理在下方,感兴趣的同学可查看翻阅。而继上一篇结合pcursor参数获取播放量,笔者在本文再来介绍photoId参数。知道photoId参数生成规律之后,就可以采集视频的评论数据。至于具体方法,将在正文结合代码来详细讲述。废话不多说,跟着笔者直接往下看详细采集评论的方法。(附带完整代码)对于pcursor,笔者之前在文章“某视频平台pcursor”,有重原创 2023-07-30 14:56:52 · 2126 阅读 · 0 评论 -
Python爬虫-快手播放量
在本专栏之前,有详细介绍过快手参数pcursor,为什么要提到它,因为本文要提到的视频播放量就需要pcursor。而对该平台相关联的文章,已经整理在下方,感兴趣的同学可查看翻阅。需要注意的是,这里需要带入你的cookie,不带cookie进行请求的话,只能获取部分数据。pcursor在本专栏上篇文章中,有详细介绍获取的方法,本文就不过多详述了,具体方法查看“本文是该专栏的第48篇,后面会持续分享python爬虫干货知识,记得关注。:获取视频真实播放量。原创 2023-05-18 18:25:04 · 3401 阅读 · 0 评论 -
Python爬虫-快手pcursor
本文是该专栏的第47篇,后面会持续分享python爬虫干货知识,记得关注。感兴趣的同学,可往前翻阅查看。而本文,在浏览器输入该url地址或者直接打开你需要查看的目标个人主页的时候,直接F12打开浏览器抓包工具,鼠标下拉个人主页的页面,短视频会自动刷新,并观察右侧抓包工具的数据加载变化原创 2023-05-08 10:57:53 · 2202 阅读 · 0 评论 -
Python爬虫-D车网近半年(六个月)汽车销量排行榜
本文是该专栏的第46篇,后面会持续分享python爬虫干货知识,记得关注。需要注意的一点,首次访问请求的时候,是可以不需要传入month的,首次请求的这个month参数可以为None。但是,我们首先请求的目的,主要是需要拿到它的sells_rank_month,因为sells_rank_month里面包含了近半年和近一年数据的时间戳,该数据为一个列表。需要注意的是,如果你爬取的目标页数过多,那最好加入代理IP。题外话,具体的参数分析和方法,在本专栏前面的文章有详细介绍过,感兴趣的同学可往前翻阅原创 2023-04-28 17:04:10 · 2489 阅读 · 0 评论 -
分布式爬虫架构-对等分布式(2)
本文是该专栏的第45篇,后面会持续分享python爬虫干货知识,记得关注。对任务的分配比较合理,可以有效利用采集节点的资源,但是由于只有一个master端的限制,当任务队列非常庞大的时候,可能会影响master端的任务调度。对等分布式是指分布式系统中的所有工作节点之间没有主从之分,虽然它们在相同的环境下具有相同的功能,但是既没有控制中心主节点,也没有被调度的子节点,组成分布式系统的所有节点都是对等的。那么,分布式爬虫架构中的原创 2023-04-24 10:39:49 · 1061 阅读 · 0 评论 -
分布式爬虫架构-主从分布式(1)
本文是该专栏的第44篇,爬虫中的分布式通常需要配合消息队列使用,目前使用比较多的是结合Redis数据库共享队列,亦或者结合Celery分布式任务队列,还有rabbitMQ消息队列等。可以说,主从分布式是目前使用最多的爬虫分布式架构,其采用master-slaver体系,换言之,就是一个master和多个slaver。总的来说,主从分布式爬虫架构的思路大致如此,感兴趣的同学也可以基于该架构进行设计,结合你自己的项目采集需求,设计一套适合自己当前需求的分布式爬虫框架。第二种分布式爬虫架构,感兴趣的同学原创 2023-04-20 09:40:19 · 675 阅读 · 0 评论 -
Python爬虫-DeepL翻译
如果在开发翻译产品或者实现即时翻译接口的功能,笔者建议使用DeepL,国内翻译平台的准确度和翻译语种类型和DeepL比较起来,DeepL更胜一筹。当然,笔者在代码中,默认需要填入一个翻译语言的语种类型参数,如果你觉得麻烦,可以将其设置为auto,就是自动检测的意思。,相当于你访问DeepL唯一的key值,没有这个Authorization,是访问不了这个即时翻译功能的。总的来说,经过笔者长时间对各国语言之间进行的测试,DeepL翻译各国语言的准确度,可以说是非常高。text:需要翻译的目标文本内容;原创 2023-04-18 16:22:10 · 1896 阅读 · 1 评论 -
Python爬虫-某跨境电商(AM)搜索热词
关于某跨境电商(AM),本专栏前面有单独详细介绍过,获取配送地的cookie信息以及商品库存数据,感兴趣的同学可往前翻阅。当然,保存数据的方式有很多,笔者本专栏之前介绍了很多pandas保存数据的方法,这里就不详述了,感兴趣的同学可往前翻看。右侧会刷新出多个地址信息,最后一个比较可疑,直接点击并查看。值得一提的是,在爬取的时候能加入IP代理最好,这点是必须的。跟关键词相关的热词都在这里,目标已经找到,那接下来的工作就相对简单了。原创 2023-04-13 16:21:54 · 1092 阅读 · 0 评论 -
Python爬虫-某某瓜网二手车数据
这3个参数应该是城市编号,笔者这里的12是北京,比如20是佛山,其他城市编号可自行去页面补充,这里暂时就不详述了。换言之,数据里面的数字(1,2,3...9),每个数字对应了一个特殊字符,需要将这个映射关系搞清楚才行。选中Network,并点击Fetch/XHR,会看到图中的信息,随机点击一条并观察Headers,Payload里面的数据信息。获取汽车价格信息的平台很多,在本专栏前面有详细介绍过另一个平台的二手车数据,感兴趣的同学可往前翻阅(基本上要找的信息都在这里,下面分析下参数,再直接使用代码测试。原创 2023-04-07 13:07:36 · 1963 阅读 · 5 评论 -
JS逆向-常见压缩和混淆之webpack(1)
对于代码混淆,其本质是对于代码标识符和结构的调整,从而达到不可读不可调试的目的,常用的混淆有字符串,变量名混淆。说到webpack,它是当前前端最热门的模块化管理和打包工具,本质上webpack只是一个现代JavaScript应用程序的静态模块打包工具,并不是混淆工具,尽管webpack有一些插件可以把代码混淆化,所以现在很多网站都把webpack和obfuscator混淆工具结合使用,这两者结合起来,会让前端代码变得难以阅读和分析。另外目前市面上比较常见的混淆还有ob混淆,特征是定义数组,数组位移。原创 2023-03-26 15:52:49 · 1428 阅读 · 0 评论