宋书航.-优快云博客

原创 Python/爬虫学习记录-Day06

通过这个部分可以找到整段实现加密的函数，将其复制到js文件中，读取并编译js代码，再通过call(js里面调用函数名字,传递的参数)调用加密函数实现加密逻辑，但是在Python中提供更为简便的方法即Python复现。调试技巧：在混淆JS中下断点后，在Console执行generateFP()可直接获取输出值用于验证。目标网址：https://account.autohome.com.cn/login。目标网址：http://ggzy.hunan.gov.cn（以湖南省为例）

2025-06-16 22:24:07 580

原创 Python/爬虫学习记录-Day05

爬虫：抓数据 -> LPUSH 塞进 Redis List。Redis：存着数据，等着被取走。入库 Worker：BRPOP 批量取数据 -> 拼接 SQL -> 批量插入数据库 -> 重复。

2025-06-14 19:14:27 2324

原创 Python/爬虫学习记录-Day04

使用工具监控内存（如Python的tracemalloc，Java的VisualVM）设置超时：innodb_lock_wait_timeout=50（单位：秒）统一加锁顺序：所有事务按固定顺序操作资源（如先操作id小的账户）重试机制：捕获死锁错误（MySQL错误码1213），延迟后重试。内存泄露指程序未能释放不再使用的内存，导致内存占用持续增长。循环引用：对象互相引用（Python需用gc模块解决）弱引用（weakref）解决循环引用。未释放资源：文件/网络连接未关闭。监听器未移除：事件监听器未注销。

2025-06-12 18:34:01 545

原创 Python/爬虫学习记录-Day03

要了解进程，首先要了解进程与进程实体的区别：进程实体由程序段、相关数据段、进程控制块PCB组成，其中PCB是进程存在的唯一标识，系统利用PCB来描述进程基本情况和运行状态，进而控制和管理进程。进程是进程实体的运行过程，是系统进行资源分配和调度的一个独立单位，是一个程序及其数据从磁盘加载到内存后，在CPU上的执行过程。其中系统资源指CPU、存储器和其他设备服务于某个进程的“时间”，例如将CPU资源理解为CPU时间片才是准确的。

2025-06-11 21:02:33 1114

原创 Python/爬虫学习记录-Day02

字体反爬即在网页中显示的字体和网页源代码中的字体不一致，进行了字体加密，这时我们需要找到网页字体和源代码字体之间的对应关系，可能是字体对应标签内某值的变化关系，也可能是存在于字体文件中的对应关系，但由于每次请求网页都会刷新字体的映射规则，所以我们需要找到字体文件的地址，可以通过前端开发者工具查看使用的是什么字体，再通过搜索抓包找到，也可直接在Network中筛选字体数据。使用代理ip服务，一些代理服务提供商提供API接口，可以动态获取新的代理IP。）找到加密字体的对应关系，根据对应关系替换原字体文件即可。

2025-06-10 20:25:57 2243

原创 Python/爬虫学习记录-Day01

可见calculate实现了装饰器所扩充的功能，如果此时我不仅需要装饰器记录函数的运行时间，还需要装饰器测量函数的运行时间是否超过了阈值，不同函数的阈值不同，难道此时需要定义多个装饰器吗？可见我们可以通过向timer传递参数定义去定义不同阈值的装饰器，但是要注意的是，在被装饰器修饰过后的函数，函数名将会变成wrapper，但是因为我们是希望wrapper继承func的属性，而不是代替，因此我们可以通过以下方式解决。通过装饰器包装，我们可以扩展别人的函数，而不修改他人函数的内部逻辑。

2025-06-09 19:23:18 1967

原创 Python爬虫入门指南：从零到简单数据抓取

网络爬虫（Web Crawler）是一种自动化程序，通过模拟浏览器行为访问网页并提取所需数据。它广泛应用于搜索引擎、数据分析、价格监控等领域。

2025-04-10 17:25:17 512 1

Jo_ker_0的博客