- 博客(33)
- 收藏
- 关注
原创 Scrapy进阶封装(第六阶段:Selenium模板封装)
本阶段在模板的基础上增加自动化封装方法,包括获取网页源码,获取网页cookie,点击,控制浏览器,等等方法。
2025-07-07 17:09:39
17635
原创 Scrapy进阶封装(第五阶段:爬虫模板初步封装,简化请求和翻页功能)
本阶段讲解爬虫模板初步封装,包括简化请求方法,简化翻页方法,要有基础,掌握此章节,爬虫开发效率进一步提高,此框架一般用于企业级项目。
2025-07-07 15:17:59
17050
原创 json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)
json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0) 意思是叫你用utf-8-sig编码。有一次爬虫遇到了json的字符串响应对象。然后转为json对象。
2025-06-24 16:30:37
3752
原创 Scrapy进阶封装(第一阶段:环境搭建,基本使用)
scrapy使用了异步网络框架,可以加快我们的下载速度。底层已经封装好并发能力。scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。底层已经封装好了,可以进行二次封装。
2025-06-24 16:22:47
31955
原创 Python数据分析jupyter的基本使用
Jupyter Notebook是以网页的形式打开,可以在网页页面中和,代码的也会直接在代码块下显示的程序。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。一般用于数据分析。很方便。首要准备会自动在浏览器打开,但有些电脑配置不一样,自动打不开,可以手动网址打开界面如下(内容请忽略,我随便找一个文件下打开的)接下来创建文件,python3文件创建好了点击Untitled可以改名字根目录就创建这个被称为单元格,两个状态,选中状态和编辑状态,
2025-06-20 14:46:34
17390
原创 Python关于垃圾回收机制
Python的垃圾回收机制以引用计数为主,标记清除和分代回收为辅。引用计数可以实时回收不再使用的对象,而分代回收则负责处理循环引用,并按代管理对象以提高效率。在大多数情况下,开发者无需关心垃圾回收,但在处理循环引用或性能敏感场景时,了解这些机制有助于优化程序。
2025-06-19 17:14:52
1216
原创 python每日剂量(2)探讨Python中不同解析库的提取速度对比
1.scrapy自带Css选择2.scrapy自带xpath3.lxml自带xpath from lxml import etree4.bs4自带美味的汤 from bs4 import BeautifulSoup5.re 正则表达式以这个文本为例,在循环解析链接标题时间情况,再循环499次并打印输出,约循环7500次,为了避免误差,考虑到CPU资源波动,那么Python程序能够得到的CPU时间就会或多或少,从而导致运行时间变长或变短,所以每种方式运行三次。当CPU爆满时。
2025-05-26 16:52:24
563
原创 Python每日剂量(1) pyfigle和colorama
今天介绍两个有趣的库,pyfiglet和colorama,作用分别如下pyfiglet用这两个库生成。让终端(命令行)输出彩色文字,支持跨平台(Windows/macOS/Linux)的文本颜色控制。Fore效果如下。
2025-05-26 10:31:06
17005
原创 爬虫之自动化工具 Playwright
本文讲playwright在爬虫的应用。主要讲playwright基本操作。获取cookie过瑞数等安全产品,模拟登录获取cookie,免api直接实现kimi聊天机器人,模拟过验证码等等。有些还没更新完。
2025-04-24 17:17:18
19403
原创 JS逆向关于网页的异步调试(实战案例)
对于简单非异步逆向的网站,搜索关键词或者hook技术一般都能得出加密的位置,要么就是跟几个栈就能找出加密的位置。对于一些混淆和异步的位置,我们很难找到加密的位置,本文着重介绍异步调试的技巧,只做学习,侵权立删。
2025-04-08 16:05:44
5443
原创 爬虫逆向常见的对称加密
DES是一种分组加密算法,他以64位为分组对数据加密。64位一组的明文从算法的一端 输入,64位的密文从另一端输出。DES是一个对称算法:加密和解密用的是同一个算法(除 密钥编排不同以外)。密钥的长度为56位(密钥通常表示为64位的数,但每个第8位都用作奇偶检验,可以忽 略)。密钥可以是任意的56位数,且可以在任意的时候改变。DES。其中Key为8个字节共64位,是DES算法 的工作密钥;Data也为8个字节64位,是要被加密或解密的数据:Mode为DES的工作方式,有 两种:加密或解密。
2025-04-01 14:59:48
19129
原创 Python调用JS代码大全
你可以在 Python 中执行 JavaScript 代码,而无需启动一个完整的 JavaScript 解释器。它的目标是提供一种简便的方式,使得在 Python 中嵌入 JavaScript 代码成为可能,特别是对于需要JavaScript 交互的项目而言。是一个 Python 库,用于在 Python 环境中执行 JavaScript 代码。它实际上是对 ExecJS 库的 Python 封装,ExecJS 本身是一个通用的 JavaScript 运行环境的抽象层。以上方法只针对非异步的js代码。
2025-03-27 14:37:12
17769
原创 JS逆向的常见hook技术(实战案例)
Hook 是一种钩子技术,在系统没有调用函数之前,钩子程序就先得到控制权,这时钩子函数既可以加工处理(改变)该函数的执行行为,也可以强制结束消息的传递。简单来说,**修改原有的 `JS `代码就是 Hook。客户端拥有 `JS` 的最高解释权,可以决定在任何时候注入` JS`,而服务器无法阻止或干预。服务端只能通过检测和混淆的手段,另 Hook 难度加大,但是无法直接阻止。
2025-03-24 16:57:32
5202
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人