- 博客(17)
- 收藏
- 关注
原创 贝塞尔曲线轨迹分享,可过某东验证码
贝塞尔曲线轨迹,某东验证码自研验证码,实测轨迹部分可使用贝塞尔曲线模拟轨迹通过。本文主要分享展示两部分。一个是贝塞尔曲线轨迹生成,一个是轨迹图片绘制。实际需参考真实轨迹图像调整贝斯尔曲线轨迹生成。
2025-04-19 13:37:12
499
原创 Python脚本分享系列-png文件合成pdf文件。
可以合成图片到pdf完成这个格式转换。这种需求可能还是数据部门用的多一点吧?示例代码是下载目标网站一批文件存储为png格式后合成为pdf文件。示例代码是单线程版本的,需要多线程使用的话要自己改。
2025-04-11 20:21:27
172
原创 爬虫堡垒机使用指南
本文介绍一下爬虫测堡垒机的一些日常使用,堡垒机主要是一种linux服务器,这些服务器一般是在idc机房、或者在阿里云。它像一个安全关卡,所有对生产环境和开发环境的访问都需先经过堡垒机。开发人员先登录堡垒机,再从堡垒机跳转至其他服务器。再说一个堡垒机其他称呼,堡垒机也称跳板机。跳板机由运维的运维管理服务器负责统一管理,相关权限等一般由运维负责。
2025-01-21 15:56:20
1536
原创 爬虫行业的 Code Review 与 Git
比如,在解释一个复杂的优化问题、复杂业务问题时,审查者可以通过口头交流的方式,一边画图或者展示示例代码,一边讲解,进行更高效的沟通。(以上操作的目的在预发布分支上完成代码审查,代码提交者和审查者都需要或者是可以在预发布分支进行代码检查,这个操作的目的是方便代码检查,比如一个文件spider.py,你在开发分支上进行了多次修改,而合并分支到预发布分支之后,本次你进行的多次修改都会合并展示出来。(git rebase也可以完成类似操作,不用进行分支合并,但是实际上会比较复杂一点,也不如合并预发布分支方便。
2024-12-18 09:26:13
317
原创 异步爬虫项目内存溢出处理
日采集百万级异步爬虫项目在k8s上产生的内存溢出问题,其实内存溢出量级不大,不容易发现,但是由于请求量大,请求时间长,内存溢出慢慢还是撑爆了服务器,服务被迫关闭,该问题已有较长时间并未修复,需接手内存溢出定位以及修复工作。开发环境不支持长时间运行,无法方便的调试,定位需部署服务器pre环境,进行内存溢出定位及修复。
2024-10-22 17:48:32
1547
1
原创 Requests还原multipart传参接口(反爬)
POST请求中文件的传输格式,一种爬虫少接触的类型Content-Type: multipart/form-data,这种数据传输的方式一般是文件上传接口,用files进行传参。但是现在也有些网站坏滴很,直接传输数据进行反爬。
2024-10-09 17:07:23
382
原创 海外爬虫docker部署
介绍一下海外服务器部署遇到的问题海外服务器是访问不了公司内网的,会给开发带来较大的阻碍,同时,海外程序国内也是跑不了的,调试也是比较麻烦的。只能看日志,猜测问题。
2024-09-11 15:16:31
871
原创 requests模块bug之内存泄漏问题
大胆猜想,步步验证,就可以初步定位内存溢出位置。内存溢出的异常和其他爬虫中遇到的异常最大的区别就是无法被捕捉,你可以捕捉服务器返回数据异常、可以捕捉获取代理异常、可以捕捉验证码未通过异常、可以捕捉请求异常,但是你无法捕捉内存溢出异常。内存泄漏导致的报错不容易看出来,开发环境中一般没有人太关注内存,所以情况就是请求数据量大的前提下,项目在本地开发环境运行会报错其他错误导致项目停止运行。生产环境中,如果是部署k8s上,数据量小项目中,该requests内存溢出问题,更不容易被发现,因为k8s上会自动扩容。
2024-07-24 14:34:14
1298
原创 杜比视界免费播放器、srt、ass字幕时间轴修改-python、简繁转化
杜比视界一般结构是DV.mp4这样子,如月光骑士Moon.Knight.S01E01.2022.DSNP.WEB-DL.2160p.HEVC.DV.DDP-Xiaomi.mp4。具体表现为迅雷内置播放器播放全片泛绿色,媒体播放器播放全片泛绿色。优酷播放器、爱奇艺播放器等无法解析或全片泛绿色。比如这样子:恒星播放器可以看杜比视界,但是收费!其实win10 win11自带的就可以做到免费观看,就是需要装一下一两个不要钱的官方插件装好其中一个就可以去掉绿色泛黄。另一个是画质优化之类的吧就。
2023-07-18 00:10:43
2819
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅