
爬虫讲解
文章平均质量分 73
根据自己的爬虫学习过程,总结爬虫经验,涵盖爬虫工具,爬虫原理与绕过以及相关项目实战
九月镇灵将
深耕python 爬虫领域,app、web、小程序研究
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
什么是protobuf?在Python中如何应用?
Protocol Buffers(简称Protobuf)是由Google开发的一种与语言无关、平台无关、可扩展的序列化结构数据的方法,它可用于通信协议、数据存储等。Protobuf通过将结构化的数据序列化为紧凑的二进制格式,从而实现了高效的存储和传输。原创 2025-02-11 17:15:09 · 1370 阅读 · 0 评论 -
什么是WebSocket?在Python中如何应用?
WebSocket 是一种在单个 TCP 连接上进行全双工通讯的协议。它使得客户端和服务器之间的数据交换变得更加简单,只需要建立一个连接,就可以实时地双向传输数据。原创 2025-02-11 17:14:11 · 1377 阅读 · 0 评论 -
当我拿出加水印图片,看pyhon几大ocr库的提取效果!
OCR文本识别技术基于图像处理和模式识别原理,通过一系列复杂的算法步骤来实现文字识别。这些步骤通常包括图像预处理、特征提取、字符分类和后处理等。原创 2025-01-10 12:17:42 · 2119 阅读 · 1 评论 -
drissionpage知识整理与某数等反爬产品绕过实战
DrissionPage是一个基于 Python 的网页自动化工具。既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。功能强大,语法简洁优雅,代码量少,对新手友好。原创 2025-01-08 21:55:52 · 2204 阅读 · 0 评论 -
一文理清JS中获取盒子宽高各方法的差异
这段时间在研究一个反爬产品,环境检测用到了很多个盒子宽高取值方法,如,各个方法取值结果不大相同,在此记录下遇到的方法。原创 2025-01-01 22:10:25 · 1934 阅读 · 0 评论 -
雷电模拟器如何把整个环境打包给别人
接了一个需求,需要帮别人配置andriod抓包环境,像magisk这种基本都要配置好。没法远程控制,就想到市面上的模拟器应该是可以实现我的需求的。原创 2024-12-23 10:42:23 · 833 阅读 · 0 评论 -
字体反爬万能方案简单版(fontTools+ddddocr),自测能过某茄小说与某招聘网
这里不会从零开始去展示站点字体反爬的破解流程,只是截取了部分混淆文本验证破解成功。一般来说对于自定义字体反爬都是使用fontTools将字体文件转成xml,然后多次对比发现不变的映射规律然后得到映射字典,但根据笔者的过往经验,有些站点的字体文件实在是很难发现不变的规律,搞起来太耗时了。这个时候要是有一个能传入一个字体文件就得到映射的话就完美了,来来来,这就引入正文。原创 2024-07-13 15:29:49 · 850 阅读 · 4 评论 -
断点调试与插桩方法(以某音a_bogus为例)
以接口```aweme/v1/web/aweme/post/```为例(这是用户作品列表的接口),这个接口是```GET```请求,我们要找到`a_bogus`参数的生成位置。原创 2024-05-24 14:11:44 · 1021 阅读 · 0 评论 -
逆向效率提升工具与方法汇总(持续更新...)
逆向开发效率提升工具和方法汇总,在便于自己的同时希望能帮助他人解决问题,也欢迎大家提供工具和方法!原创 2023-05-07 15:18:36 · 1940 阅读 · 0 评论 -
python 爬虫 表格和word文档table处理
表格解析导入包import xlrd下面方法针对的是表格的每列数据是有标题栏的,通过锁定标题栏,然后以标题栏为字典的key,以每行的数据分别为对应的value,这样就获得便捷的数据file_content = base64.b64decode(body)book = xlrd.open_workbook(file_contents=file_content)sheet1 = book.sheets()[0]# 总行数nrows = sheet1.nrowsrow_num = 0# 获取原创 2021-08-03 19:58:03 · 608 阅读 · 0 评论 -
python爬虫工程师面经(2023年金三银四)
过年期间,经过自我慎重的考虑后,终于决定在2月份向公司提出了辞职,说实话很慌,也做好了长时间找不到工作的准备,只是继续呆在公司对自我发展毫无意义,找了差不多一个月,面试了六家公司,最后确定了一份工作,在这里分享一下我的面经。自我介绍离职原因优点与缺点发展规划个人觉得上面四个问题是面试者经常被问到的,建议大家可以在准备面试时准备好问题的答案,注意下面:离职原因不要说得太极端,不要过度涉及上家公司的不好。原创 2023-03-31 19:42:45 · 1458 阅读 · 1 评论 -
不想用selenium处理滑块验证码?教你用cv2解决
cv2解决滑块验证码验证原创 2022-04-28 11:31:54 · 2535 阅读 · 0 评论 -
selenium处理各类滑块验证码
selenium处理各类滑块验证码滑动验证码案例展示实现滑块拼图验证码案例展示实现滑块拼图验证码(Canvas)案例展示实现滑动验证码案例展示这种只要用鼠标点击并移动指定距离就可以完成验证(x轴)实现# -*- coding: utf-8 -*-import timefrom selenium import webdriverfrom selenium.webdriver import ChromeOptions, ActionChains# 添加参数options = Chrom原创 2022-04-26 10:20:38 · 9423 阅读 · 5 评论 -
Python requests发送multipart/form-data请求
依赖第三方包from requests_toolbelt import MultipartEncoderimport requestsfrom requests_toolbelt import MultipartEncoderm = MultipartEncoder( fields=quer_m, # quer_m是post请求需要的参数 boundary='------'+''.join(random.sample(string.ascii_letters + string.原创 2021-11-01 12:49:56 · 1821 阅读 · 3 评论 -
阮一峰老师博客爬取与博客文章存储持久化方式的思考
阮一峰老师博客爬取与博客文章存储持久化方式的思考前言博客文章存储持久化思考文本形式存储html形式存储pdf形式存储博客爬取思路爬取思路一爬取思路二个人选择pdf存储结尾前言以前阅读过阮一峰老师的博客,讲解通俗易懂,很是良心,想着把老师的博客都爬取下来,方便后面阅读。由于是第一次爬取并存储博客数据,如何永久储存博客是我需要思考的问题,而下来便是我自己总结的思路了。博客文章存储持久化思考文本形式存储文本形式存储是指将数据储存在文本文件中,这种方式确实能直接、快捷储存文字数据,但是文本形式存储无法保存原创 2021-08-10 22:12:42 · 1159 阅读 · 3 评论 -
scrapy + selenium爬取王者荣耀游戏壁纸(解决下一页触发问题)
爬取网站王者荣耀游戏壁纸实现场景使用scrapy配合selenium爬取王者荣耀游戏壁纸界面需要反复操作同一个动态页面的方法,通过点击“下一页”或者点击不用的page按钮来访问不同的页面链接,使用selenium创建浏览器对象,然后通过该浏览器对象进行请求发送,获取动态加载的数据值项目实现spiders目录下的爬虫文件import requestsimport scrapyfrom selenium import webdriverfrom selenium.webdriver.chrom原创 2021-02-28 20:08:44 · 542 阅读 · 2 评论 -
使用requests+lxml爬取zol桌面壁纸
明确爬取路线我们要爬取的是ZOL桌面壁纸的壁纸下载排行榜系列壁纸而要获取到每个下载排行榜系列的图片必须点击对应专题进入专题详情页才能看到专题对应的壁纸,这些壁纸就是我们要爬取的对象,归纳一下:获取到整个首页html定位到各个下载排行榜的系列专题,取出指定专题的标题和详情页链接拼接完整链接以循环的方式再次发起对专题详情页的请求得到详情页的html,取出每个壁纸的下载链接进行下载保存。具体实现步骤请继续往下看实现技术requests、lxml、re和os这四个python库,其中requ原创 2021-01-11 17:17:21 · 396 阅读 · 0 评论