- 博客(7)
- 收藏
- 关注
原创 Python/爬虫学习记录-Day06
通过这个部分可以找到整段实现加密的函数,将其复制到js文件中,读取并编译js代码,再通过call(js里面调用函数名字,传递的参数)调用加密函数实现加密逻辑,但是在Python中提供更为简便的方法即Python复现。调试技巧:在混淆JS中下断点后,在Console执行generateFP()可直接获取输出值用于验证。目标网址:https://account.autohome.com.cn/login。目标网址:http://ggzy.hunan.gov.cn(以湖南省为例)
2025-06-16 22:24:07
580
原创 Python/爬虫学习记录-Day05
爬虫:抓数据 -> LPUSH 塞进 Redis List。Redis:存着数据,等着被取走。入库 Worker:BRPOP 批量取数据 -> 拼接 SQL -> 批量插入数据库 -> 重复。
2025-06-14 19:14:27
2324
原创 Python/爬虫学习记录-Day04
使用工具监控内存(如Python的tracemalloc,Java的VisualVM)设置超时:innodb_lock_wait_timeout=50(单位:秒)统一加锁顺序:所有事务按固定顺序操作资源(如先操作id小的账户)重试机制:捕获死锁错误(MySQL错误码1213),延迟后重试。内存泄露指程序未能释放不再使用的内存,导致内存占用持续增长。循环引用:对象互相引用(Python需用gc模块解决)弱引用(weakref)解决循环引用。未释放资源:文件/网络连接未关闭。监听器未移除:事件监听器未注销。
2025-06-12 18:34:01
545
原创 Python/爬虫学习记录-Day03
要了解进程,首先要了解进程与进程实体的区别:进程实体由程序段、相关数据段、进程控制块PCB组成,其中PCB是进程存在的唯一标识,系统利用PCB来描述进程基本情况和运行状态,进而控制和管理进程。进程是进程实体的运行过程,是系统进行资源分配和调度的一个独立单位,是一个程序及其数据从磁盘加载到内存后,在CPU上的执行过程。其中系统资源指CPU、存储器和其他设备服务于某个进程的“时间”,例如将CPU资源理解为CPU时间片才是准确的。
2025-06-11 21:02:33
1114
原创 Python/爬虫学习记录-Day02
字体反爬即在网页中显示的字体和网页源代码中的字体不一致,进行了字体加密,这时我们需要找到网页字体和源代码字体之间的对应关系,可能是字体对应标签内某值的变化关系,也可能是存在于字体文件中的对应关系,但由于每次请求网页都会刷新字体的映射规则,所以我们需要找到字体文件的地址,可以通过前端开发者工具查看使用的是什么字体,再通过搜索抓包找到,也可直接在Network中筛选字体数据。使用代理ip服务,一些代理服务提供商提供API接口,可以动态获取新的代理IP。)找到加密字体的对应关系,根据对应关系替换原字体文件即可。
2025-06-10 20:25:57
2243
原创 Python/爬虫学习记录-Day01
可见calculate实现了装饰器所扩充的功能,如果此时我不仅需要装饰器记录函数的运行时间,还需要装饰器测量函数的运行时间是否超过了阈值,不同函数的阈值不同,难道此时需要定义多个装饰器吗?可见我们可以通过向timer传递参数定义去定义不同阈值的装饰器,但是要注意的是,在被装饰器修饰过后的函数,函数名将会变成wrapper,但是因为我们是希望wrapper继承func的属性,而不是代替,因此我们可以通过以下方式解决。通过装饰器包装,我们可以扩展别人的函数,而不修改他人函数的内部逻辑。
2025-06-09 19:23:18
1967
原创 Python爬虫入门指南:从零到简单数据抓取
网络爬虫(Web Crawler)是一种自动化程序,通过模拟浏览器行为访问网页并提取所需数据。它广泛应用于搜索引擎、数据分析、价格监控等领域。
2025-04-10 17:25:17
512
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅