
Python前行者
文章平均质量分 70
Python前行者
周小董
专注于数据采集,数据治理及数据架构的研究,热爱分享一些经验,欢迎朋友来探讨交流。 附言:文章仅用于个人学习,如有侵权,请联系我删除,谢谢!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[197]chrome开发者工具(DevTool)使用技巧
钩子英文 Hook,在 windows 系统中,所有的都是消息,按了一下键盘,就是一个消息,Hook 的意思就是勾住,在消息过去之前先把消息勾住,不让其执行,然后自己优先处理。Event Listener Breakpoints,事件侦听器断点,当鼠标点击、移动、键盘按键等行为或者其他事件发生时可以触发断点,比如 Mouse —> click,可快速定位点击按钮后,所执行的 JS。:data URLs 指一些嵌入到文档中的小型文件,在请求表里面以 data: 开头的文件就是,如较为常见的 svg 文件。原创 2025-08-20 18:34:40 · 1529 阅读 · 0 评论 -
[1328]browser_cookie3从浏览器中提取Cookies
browser_cookie3库是Python中一个非常实用的工具,它能够帮助开发者方便地获取浏览器中的Cookies,从而在网络爬虫或自动化脚本中模拟登录或访问需要认证的网页。然而,在使用时也需要注意权限、浏览器版本和安全性等问题。原创 2025-08-05 23:00:00 · 771 阅读 · 0 评论 -
[1326]python国密gmssl
SM2椭圆曲线公钥密码算法:我国自主知识产权的商用密码算法,是ECC(Elliptic Curve Cryptosystem)算法的一种,基于椭圆曲线离散对数问题,计算复杂度是指数级,求解难度较大,同等安全程度要求下,椭圆曲线密码较其他公钥算法所需密钥长度小很多。GmSSL是一个开源的加密包的python实现,支持SM2/SM3/SM4等国密(国家商用密码)算法、项目采用对商业应用友好的类BSD开源许可证,开源且可以用于闭源的商业应用。gmssl是包含国密SM4算法的Python实现, 提供了。原创 2025-07-16 22:45:00 · 638 阅读 · 0 评论 -
[671]adb连接模拟器详细教程
MuMu 6:端口7555,需用自带。MuMu 12:端口16384,直接。如果连接失败,检查adb 冲突USB 调试授权或模拟器版本。成功连接后,即可使用adbFrida等工具进行调试!🚀。原创 2025-06-03 15:40:16 · 2520 阅读 · 0 评论 -
[615]curl_cffi支持原生模拟浏览器TLS/JA3指纹的python库
不同的客户端之间的差异 很大,而且一般这些信息还都是稳定的,所以服务端就可以根据 TLS 的握手信息来作为特征,识别 一个请求是普通的用户浏览器访问,还是来自 Python 脚本等的自动化访问。所以, 纯 Python 的库,比如 requests 和 httpx,再怎么改也不可能改成和 Chrome 一样的指纹,必须 使用第三方的 C 扩展库,才能够实现完美模拟浏览器指纹。不同网站的生成的指纹可能有差异,但是多次访问同一个网站生成的指纹是稳定的,而且能区分开 不同客户端。显然,防御等级分 两个层次。原创 2025-05-01 09:15:00 · 961 阅读 · 0 评论 -
[614]python库boto3
boto3是Amazon Web Services (AWS)的官方Python SDK。它允许Python开发者通过编写Python代码来管理AWS服务。boto3提供了对几乎所有AWS服务的直接访问,包括Amazon S3, EC2, DynamoDB等。本文全面探讨了Python的boto3库,一个强大的工具,使得开发者能够轻松管理和操作AWS云服务。通过介绍其安装过程、核心概念、以及如何通过客户端和资源接口进行服务操作,本文为大家提供了一系列实用示例,从简单的S3文件操作到复杂的EC2实例管理。原创 2025-05-01 09:00:00 · 749 阅读 · 0 评论 -
[1325]pyfiglet文本转艺术字体
pyfiglet 是一个 Python 库,用于将文本转换为各种 ASCII 艺术字体。通过该库,程序员可以轻松地将普通文本转换为具有装饰性的艺术字体,适用于打印标题、标语等。(Linux/Mac)来不断刷新屏幕,并打印pyfiglet生成的文本,创建动态效果。,你可以自定义字体样式,创建个性化的文本输出。此代码将文本宽度调整为50个字符,使用standard字体样式。参数,可以调整生成的文本宽度,从而影响字体大小。此代码将文本居中,并使用bubble字体样式。参数,可以指定文本的对齐方式,例如。原创 2025-04-19 08:30:00 · 385 阅读 · 0 评论 -
[1324]Python打包exe工具Nuitka
参数,这是因为打包pyd的时候没有入口文件,所以就没有import可以follow,因此就必须要用到include对整个包进行指定,否则打包出来的pyd文件里面不会有任何的内容,引用这个pyd文件会提示找不到模块。有人推荐将自己的核心代码放到1个文件夹中,打包成pyd,然后采用nuitka或者pyinstaller打包,这样就不会影响核心代码被别人反编译看到了!个人的需求:能直接用nuitka直接打包就直接打包,例如conda环境太复杂,为了保护代码,就将核心代码打包成pyd吧!原创 2025-04-19 08:15:00 · 1090 阅读 · 0 评论 -
[968]Windows查看exe依赖的dll的方法
参考:https://blog.youkuaiyun.com/github_34572149/article/details/129390383。github 地址:https://github.com/lucasg/Dependencies。32位DLL文件存放路径为C:\Windows\SysWOW64\。64位DLL文件存放路径为C:\Windows\System32\。下载完成后进行解压,将其中的dll放入对应文件夹。1、用VS自带的工具:dumpbin 查看。2、打开vs命令窗口。原创 2021-05-07 23:09:24 · 638 阅读 · 0 评论 -
[1316]CSS选择器用法及示例
允许你选择不匹配该选择器的所有元素,它可以用在几乎任何选择器中,来排除某些不需要的元素。符号分隔选择器,选择某个元素之后的所有兄弟元素(共享相同父元素),而不仅仅是紧接在后面的元素。选择紧接在另一元素后的元素,且二者有相同的父元素。: 基于元素在文档树中的位置或与其他元素的关系来选择元素。: 基于元素在文档树中的位置或与其他元素的关系来选择元素。: 选择某个元素之后的所有兄弟元素(共享相同的父元素),而不限于直接相邻的兄弟。: 选择当前活动的目标元素,即URL的片段标识符(#后面的部分)指向的元素。转载 2024-12-21 07:30:00 · 165 阅读 · 0 评论 -
[1309]MinerU、Magic-PDF、Magic-Doc
Magic-Doc 是一个轻量级、开源的用于将多种格式的文档(PPT/PPTX/DOC/DOCX/PDF)转化为 markdown 格式的工具。支持转换本地文档或者位于 AWS S3 上的文件主要功能包含Web网页提取跨模态精准解析图文、表格、公式信息电子书文献提取支持 epub,mobi等多格式文献,文本图片全适配语言类型鉴定支持176种语言的准确识别。原创 2024-09-28 09:30:00 · 7579 阅读 · 0 评论 -
[1308]pdf转markdown
无论是文档、表格、图像、视频、音频文件,还是网页,OmniParse 都能对其进行处理,使其变得干净、结构化,并为诸如 RAG(Retrieval-Augmented Generation)和细调等AI应用做好准备。它主要用于高效地解析 PDF 文档中的排版、数学公式、表格、图片、图表等内容,并将这些内容转换为结构化的 Markdown 格式。参考:https://blog.youkuaiyun.com/weixin_40425640/article/details/140765933。原创 2024-09-28 09:00:00 · 2306 阅读 · 0 评论 -
[1305]whisper(音转文)使用教程
它是一个快速推理引擎,用于 Transformer 模型,相比 OpenAI 的 Whisper 模型,速度提升了 4 倍。根据我的实测结果,这个模型的表现非常优秀,它可以识别多种语言,包括中文,而且中文识别效果非常出色。faster-whisper参考:https://blog.youkuaiyun.com/gitblog_00489/article/details/141049036。whisper-webui使用教程:https://post.smzdm.com/p/a3052kz7/最后,您可以处理识别结果。原创 2024-09-21 09:00:00 · 5772 阅读 · 0 评论 -
[1304]ffmpeg安装及使用
至于你是想选择带 shared 的还是不带 shared 的版本,其实都是可以的。你可以选择下载上面红色圈中的 release-full 版本,或者选择下面红色圈中的前一个稳定版本 xxx-full_build。FFmpeg是一款功能强大的开源多媒体处理工具,它支持几乎所有的视频和音频格式,以及几乎所有的编解码器。以下是一些常用的FFmpeg命令示例。5、然后在出来的编辑环境变量表中,新建一个,将刚才复制的 bin 目录路径粘贴进去,保存即可。选择Window平台,下面有两个链接,都是可以的,选择其一。原创 2024-09-21 08:30:00 · 1183 阅读 · 0 评论 -
[1303]python中mp4转mp3
MoviePy是一个用于视频编辑的Python模块,支持对视频进行剪切、拼接、插入标题、音乐等基本操作,以及视频合成、处理和创建高级特效。它能够对大多数常见视频格式进行读写,包括MP4、AVI等,因此非常适合用于将MP4文件转换为MP3文件。:在代码中指定MP4文件的路径和希望保存的MP3文件的路径,然后运行代码以完成转换。要将MP4文件转换为MP3文件,可以使用Python中的MoviePy库。:首先,确保你的Python环境中已经安装了MoviePy库。方法将音频流保存为MP3文件。原创 2024-09-21 08:00:00 · 621 阅读 · 0 评论 -
[1302]FunAudioLLM – 阿里通义团队推出的开源语音大模型
模型结构如下图所示:经过超过40万小时的数据训练,支持50多种语言,其识别性能超越了Whisper模型。具备出色的情感识别能力,在测试数据上超越了当前最佳模型。提供声音事件检测能力,支持检测各种常见的人机交互事件,如背景音乐、掌声、笑声、哭泣、咳嗽和打喷嚏。SenseVoice-Small模型采用非自回归的端到端框架,具有极低的推理延迟。处理10秒音频仅需70毫秒,比Whisper-Large快15倍。提供便捷的微调脚本和策略,使用户能够根据业务场景轻松解决长尾样本问题。原创 2024-09-21 00:30:00 · 2492 阅读 · 0 评论 -
[1298]js2py.base.JsObjectWrapper 类型转化为字典
在js2py中,可以使用to_dict方法将JsObjectWrapper类型的对象转换为Python字典。原创 2024-09-05 22:45:00 · 212 阅读 · 0 评论 -
[1293]Windows电脑使用tcping命令检测服务器端口是否正常
而使用tcp命令,可以检测IP的端口状态、端口连接延迟,不过由于功能有限,所以Windows官方并没有将这个功能内置到系统中,需要我们下载tcping的软件包才能使用。可以看到,tcping脚本给我们执行了4次,每次tcping的22端口都是Port is open,也就是端口连通状态(如果端口不通,会显示No response)。如果显示如下类似的帮助指令,说明tcping安装没有问题,如果显示’tcping’ 不是内部或外部命令,也不是可运行的程序。在命令行中,我们输入tcping然后回车。转载 2024-08-03 09:00:00 · 1596 阅读 · 0 评论 -
[1286]python执行js代码方法汇总(PyExecJS、Js2Py、py-mini-racer)
在平时爬虫过程中,我们会遇到网站对js文件加密,无法爬取,现在就让我们来了解一下js2py模块,它可以对js文件进行解密。原创 2024-06-06 22:45:00 · 4197 阅读 · 0 评论 -
[103]教你使用Pycharm创建python文件时自动添加作者时间
中粘贴以上代码,其中Anthor改成你自己的就好。打开pycharm后,原创 2024-05-31 21:00:00 · 520 阅读 · 0 评论 -
[1276]LibreOffice安装及使用
官网:https://zh-cn.libreoffice.org/download/libreoffice/LibreOffice 是一款开放源代码的自由免费全能办公软件,可运行于 Microsoft Windows, GNU/Linux 以及 macOS 等操作系统上。它包含了 Writer, Calc, Impress, Draw, Math 以及 Base 等组件,可分别用于文本文档、电子表格、幻灯片演示文稿、绘图文档、数学公式编辑、数据库管理等工作。LibreOffice 支持各种文档格式。原创 2024-04-12 21:23:13 · 13550 阅读 · 0 评论 -
[443]python pathlib库Path类用法
来源:https://blog.youkuaiyun.com/luxingyu329/article/details/129279221。4、path lib Path 模块学习。2、创建path对象。转载 2024-04-06 21:56:00 · 1503 阅读 · 1 评论 -
[1272]python实现DES加密
参考:https://blog.youkuaiyun.com/qq_27371025/article/details/120636391。需要注意的是,在实际应用中,需要对秘钥和数据进行适当的保护和传输加密,以确保数据的安全性。得到16进制:d50d7e20173f0e27。python代码实现DES加解密。原创 2024-03-16 09:00:00 · 672 阅读 · 0 评论 -
[1269]使用gunicorn部署flask项目
flask 自带的web服务器可用于开发环境运行调试,不适合部署在生产环境,无法满足线上的性能要求。当使用启动时,flask框架会有一段WSGI: 全称是Web Server Gateway Interface(web服务器网关接口),它是一种规范,它是web服务器和web应用程序之间的接口。它的作用就像是桥梁,连接在web服务器和web应用框架之间。uwsgi: 是一种传输协议,用于定义传输信息的类型。uWSGI: 是实现了uwsgi协议WSGI的web服务器。原创 2024-03-09 09:30:00 · 13803 阅读 · 0 评论 -
[1265]Chrome XPath-Helper
(1)获取元素的XPath:按住Shift键,将鼠标移到需要定位的元素上,该元素会以黄色底纹高亮。左边的XPath编辑框内会显示该元素的XPath路径,右边的节点文本显示框会显示该元素的文本内容。参考:http://blog.youkuaiyun.com/Kwoky/article/details/80677117。快捷键:Ctrl+Shift+X(Windows),Command+Shift+X(OS X)(2)编辑校验XPath:在编辑框内输入自己事先写好的XPath路径,检查书写是否有误。原创 2024-02-08 09:30:00 · 889 阅读 · 0 评论 -
[1263]python代码分析工具pylint
Pylint 是一个 Python 代码分析工具,它分析 Python 代码中的错误,查找不符合代码风格标准(Pylint 默认使用的代码风格是 PEP 8)和有潜在问题的代码。Pylint 是一个 Python 工具,除了平常代码分析工具的作用之外,它提供了更多的功能:如检查一行代码的长度,变量名是否符合命名标准,一个声明过的接口是否被真正实现等等。Pylint 的一个很大的好处是它的高可配置性,高可定制性,并且可以很容易写小插件来添加功能。原创 2024-01-20 15:00:00 · 2570 阅读 · 0 评论 -
[1262]python toml文件
Toml (Tom’s Obvious, Minimal Language) 是一种简单、易于阅读和编写的配置文件格式。它被广泛用于存储和加载应用程序的配置信息。Toml文件的简洁,类似于INI文件,但具有更强大的功能和更好的可读性。无论是还是toml这些类型的文件也好,它们有一个统一的称呼为文本文件,只需要去修改文件后缀就可以来改变文件类型和格式。键值对:使用等号(=)来分隔键和值。表:使用方括号([])来定义一个表,表名位于方括号内。原创 2024-01-20 14:00:00 · 1086 阅读 · 0 评论 -
[1261]python的sitecustomize.py
参考:https://blog.youkuaiyun.com/mandycool/article/details/7364020。这样python默认编码就变成了utf-8,并且以后无需在设置。打包的程序中有中文时,则打包时要在源程序中加上。2、在每个含有中文的py文件中的开头加上。这句,即可解决问题。原创 2024-01-20 12:00:00 · 1110 阅读 · 0 评论 -
[1257]python bytearray()和java getBytes()
getBytes()方法是String类中的一个方法,它的作用是将字符串转换为字节数组。该方法有多个重载形式,可以指定字符编码方式,也可以指定起始位置和长度等参数。这个数组里的元素是可变的,并且每个元素的值范围: 0原创 2024-01-07 21:38:58 · 1339 阅读 · 0 评论 -
[1250]python调用java代码的工具jpype
JPype是一个能够让 python 代码方便地调用 Java 代码的工具,从而克服了 python 在某些领域(如服务器端编程)中的不足。Jython 是给 Java程序员 运行 Python 程序用的。JPype是给python程序员玩的。原创 2023-12-24 21:40:50 · 1639 阅读 · 0 评论 -
[1249]python实现rsa非对称加密解密
这两种方法都可以实现RSA加密,第一种方法使用了Python的内置模块rsa,而第二种方法使用了第三方库cryptography。请注意,第二种方法需要先安装cryptography库。两种方法的核心思路是相同的,即生成密钥对、加密和解密过程,只是具体的实现细节有所不同。参考:https://blog.youkuaiyun.com/qq_25500415/article/details/118558579。原创 2023-12-24 21:39:09 · 2468 阅读 · 0 评论 -
[1233]Python数据存储之h5py详解
h5py官方文档:https://docs.h5py.org/en/stable/build.htmlh5py是Python中用于读取和写入HDF5文件格式数据的软件包,HDF指的是层次型数据格式(HDF: Hierarchical Data Format),主要用于存储和管理大数据集和复杂数据对象的工具。h5py能够读写HDF5文件,并具有简单、自然和Pythonic的API。它支持Numpy数组、Python字符串等,并且能够保存Python对象的一些特定信息(如用户定义的元数据)。原创 2023-10-13 22:45:00 · 4816 阅读 · 0 评论 -
[780]Python parsel库的使用
parsel 这个库可以对 HTML 和 XML 进行解析,并支持使用 XPath 和 CSS Selector 对内容进行提取和修改,同时它还融合了正则表达式提取的功能。功能灵活而又强大,同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。转载 2023-10-10 19:12:45 · 3206 阅读 · 0 评论 -
[1229]python模块之psutil详解
psutil是一个跨平台库能够轻松实现获取系统运行的进程和系统利用率(包括CPU、内存、磁盘、网络等)信息。它主要用来做系统监控,性能分析,进程管理。它实现了同等命令行工具提供的功能,如ps、top、lsof、netstat、ifconfig、who、df、kill、free、nice、ionice、iostat、iotop、uptime、pidof、tty、taskset、pmap等。目前支持32位和64位的Linux、Windows、OS X、FreeBSD和Sun Solaris等操作系统.原创 2023-09-20 22:15:00 · 2309 阅读 · 0 评论 -
[1228]Python prometheus-client使用方式
prometheus_client 提供了丰富的 API,可以用于定义和注册 metrics,并根据需要暴露这些 metrics 的接口。# 定义和注册 metricc = Counter('test_counter', '测试计数器')g = Gauge('test_gauge', '测试仪表盘')s = Summary('test_summary', '测试摘要')h = Histogram('test_histogram', '测试直方图', buckets=(1, 2, 3))原创 2023-09-20 22:00:00 · 7928 阅读 · 0 评论 -
[1225]requests-cache使用介绍
它就是 requests-cache,是 requests 库的一个扩展包,利用它我们可以非常方便地实现请求的缓存,直接得到对应的爬取结果。下面我们来介绍下它的使用。。来源:http://cuiqingcai.com/36052.htmlRedisCacheMongoCacheFileCacheBaseCache。转载 2023-09-20 20:45:00 · 806 阅读 · 0 评论 -
[1226]Fire库给Python脚本生成命令行
这里我们定义了一个 hello 方法,然后接收一个 name 参数,默认值是 World,接着输出了 Hello 加 name 这个字符串。所以说,综合来看,fire 可以为一个类命令行,每个命令都对应一个方法的名称,同时在后面添加额外的可选或必选参数,加到命令行参数的后面。这里定义了一个 scrape 方法,第一个参数接收 url,即爬取的网址,第二个参数接收 timeout,即指定超时时间。我们定义了一个 Python 的方法,方法接收一些参数,但是调用的时候想将这些参数用命令行暴露出来。转载 2023-09-20 21:00:00 · 130 阅读 · 0 评论 -
[1213]基于Python实现图像去重
本文介绍了Python图像去重的三种方法,分别是哈希算法、局部敏感哈希算法和感知哈希算法。在实际的应用场景中,可以根据具体情况选择合适的方法来进行图像去重操作。原创 2023-07-05 23:00:00 · 4950 阅读 · 1 评论 -
[1214]基于Python实现视频去重
一款基于Python语言的视频去重复程序,它可以根据视频的特征参数,将重复的视频剔除,以减少视频的存储空间。最后,将每个视频的哈希值进行对比,如果哈希值相同,则表示视频内容相同,可以将其中一个视频剔除,以节省存储空间。参考:https://blog.youkuaiyun.com/weixin_44634704/article/details/128563576。3、最后,将每个视频的哈希值进行对比,如果哈希值相同,则表示视频内容相同,可以将其中一个视频剔除。同级目录下新建dup_video。原创 2023-07-05 23:15:00 · 2770 阅读 · 0 评论 -
[1211]python imagehash库简单运用
散列函数(英语:Hash function)又称散列算法哈希函数,是一种从任何一种数据中创建小的数字 “指纹” 的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或 hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。原创 2023-07-01 08:00:00 · 2441 阅读 · 0 评论