自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 25年贵阳旅居食记

记录离职后贵阳旅居的美食记录,方便日后回访拔草。

2025-08-21 19:01:46 1159

原创 贝塞尔曲线轨迹分享,可过某东验证码

贝塞尔曲线轨迹,某东验证码自研验证码,实测轨迹部分可使用贝塞尔曲线模拟轨迹通过。本文主要分享展示两部分。一个是贝塞尔曲线轨迹生成,一个是轨迹图片绘制。实际需参考真实轨迹图像调整贝斯尔曲线轨迹生成。

2025-04-19 13:37:12 499

原创 Python脚本分享系列-png文件合成pdf文件。

可以合成图片到pdf完成这个格式转换。这种需求可能还是数据部门用的多一点吧?示例代码是下载目标网站一批文件存储为png格式后合成为pdf文件。示例代码是单线程版本的,需要多线程使用的话要自己改。

2025-04-11 20:21:27 172

原创 Python脚本分享系列-自动打开上百个文件。

实用脚本分享-自动打开上百个文件到特定软件,当然也可以打开少点四五十个

2025-04-10 17:44:15 252

原创 Python hook request 请求 分享

Python hook request 请求 分享

2025-01-23 10:17:20 790

原创 爬虫堡垒机使用指南

本文介绍一下爬虫测堡垒机的一些日常使用,堡垒机主要是一种linux服务器,这些服务器一般是在idc机房、或者在阿里云。它像一个安全关卡,所有对生产环境和开发环境的访问都需先经过堡垒机。开发人员先登录堡垒机,再从堡垒机跳转至其他服务器。再说一个堡垒机其他称呼,堡垒机也称跳板机。跳板机由运维的运维管理服务器负责统一管理,相关权限等一般由运维负责。

2025-01-21 15:56:20 1536

原创 Pyhton键鼠自动化 原神脚本

内附原神脚本、崩铁脚本、LOL脚本、PUBG脚本、办公脚本python制作经验、指南

2024-12-31 15:51:12 3153 1

原创 拽神(DrissionPage)使用介绍

拽神(DrissionPage ) 多线程、代理、数据监听代码示例。爬虫使用介绍。

2024-12-26 11:48:29 2398

原创 爬虫行业的 Code Review 与 Git

比如,在解释一个复杂的优化问题、复杂业务问题时,审查者可以通过口头交流的方式,一边画图或者展示示例代码,一边讲解,进行更高效的沟通。(以上操作的目的在预发布分支上完成代码审查,代码提交者和审查者都需要或者是可以在预发布分支进行代码检查,这个操作的目的是方便代码检查,比如一个文件spider.py,你在开发分支上进行了多次修改,而合并分支到预发布分支之后,本次你进行的多次修改都会合并展示出来。(git rebase也可以完成类似操作,不用进行分支合并,但是实际上会比较复杂一点,也不如合并预发布分支方便。

2024-12-18 09:26:13 317

原创 企业中Python布隆过滤器与分布式爬虫的使用

浅谈布隆过滤器和分布式爬虫的企业的实际应用。

2024-10-28 11:40:51 778

原创 异步爬虫项目内存溢出处理

日采集百万级异步爬虫项目在k8s上产生的内存溢出问题,其实内存溢出量级不大,不容易发现,但是由于请求量大,请求时间长,内存溢出慢慢还是撑爆了服务器,服务被迫关闭,该问题已有较长时间并未修复,需接手内存溢出定位以及修复工作。开发环境不支持长时间运行,无法方便的调试,定位需部署服务器pre环境,进行内存溢出定位及修复。

2024-10-22 17:48:32 1547 1

原创 Requests还原multipart传参接口(反爬)

POST请求中文件的传输格式,一种爬虫少接触的类型Content-Type: multipart/form-data,这种数据传输的方式一般是文件上传接口,用files进行传参。但是现在也有些网站坏滴很,直接传输数据进行反爬。

2024-10-09 17:07:23 382

原创 海外爬虫docker部署

介绍一下海外服务器部署遇到的问题海外服务器是访问不了公司内网的,会给开发带来较大的阻碍,同时,海外程序国内也是跑不了的,调试也是比较麻烦的。只能看日志,猜测问题。

2024-09-11 15:16:31 871

原创 2024 海外数据爬取 代理选择

爬虫的海外代理如何测试?不同代理同样价格5元/GB为何实际价格不一样?还有什么不为人知的秘密?

2024-08-30 17:00:09 427 1

原创 requests模块bug之内存泄漏问题

大胆猜想,步步验证,就可以初步定位内存溢出位置。内存溢出的异常和其他爬虫中遇到的异常最大的区别就是无法被捕捉,你可以捕捉服务器返回数据异常、可以捕捉获取代理异常、可以捕捉验证码未通过异常、可以捕捉请求异常,但是你无法捕捉内存溢出异常。内存泄漏导致的报错不容易看出来,开发环境中一般没有人太关注内存,所以情况就是请求数据量大的前提下,项目在本地开发环境运行会报错其他错误导致项目停止运行。生产环境中,如果是部署k8s上,数据量小项目中,该requests内存溢出问题,更不容易被发现,因为k8s上会自动扩容。

2024-07-24 14:34:14 1298

原创 杜比视界免费播放器、srt、ass字幕时间轴修改-python、简繁转化

杜比视界一般结构是DV.mp4这样子,如月光骑士Moon.Knight.S01E01.2022.DSNP.WEB-DL.2160p.HEVC.DV.DDP-Xiaomi.mp4。具体表现为迅雷内置播放器播放全片泛绿色,媒体播放器播放全片泛绿色。优酷播放器、爱奇艺播放器等无法解析或全片泛绿色。比如这样子:恒星播放器可以看杜比视界,但是收费!其实win10 win11自带的就可以做到免费观看,就是需要装一下一两个不要钱的官方插件装好其中一个就可以去掉绿色泛黄。另一个是画质优化之类的吧就。

2023-07-18 00:10:43 2819 1

原创 爬虫多次请求超时处理 异常+for else重试(装饰器版)

python爬虫中装饰器,for else语句的使用。

2023-02-11 23:03:29 472

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除