- 博客(16)
- 收藏
- 关注
原创 使用Python批量解析Access数据库(.mdb/.accdb文件)
✅轻量级:无需安装庞大的 Access 软件,仅需几百 MB 的驱动。✅自动化:结合os模块,可轻松编写脚本遍历文件夹,批量合并数百个文件。✅生态强:数据直接进入 pandas,无缝衔接 matplotlib 绘图或 sklearn 建模。✅兼容性:同时支持老旧的.mdb和较新的.accdb格式。
2026-01-09 22:19:03
603
原创 告别WPS会员!用Python自制电子发票批量打印排版工具
该工具基于Python的tkinter和PyMuPDF库开发,完美解决了WPS合并打印需要会员的问题;核心逻辑是将多个PDF发票文件按照指定排版规则合并到同一个PDF页面中,支持手动指定尺寸和自动适配两种模式;工具具备可视化操作界面、配置保存、进度显示等实用功能,开箱即用,大幅提升报销发票处理效率。这个小工具虽然简单,但切实解决了日常办公中的痛点。作为程序员,我们最大的优势就是能用代码解决实际问题,拒绝被各种会员限制束缚。希望这篇文章能帮助到有同样需求的朋友!
2026-01-04 20:42:29
695
原创 在线课程视频下载—Python高效实现 M3U8 视频批量下载
本文介绍了一个基于Python的M3U8视频批量下载工具,具有以下核心特点:1)支持多线程并发下载,可自定义线程数提升效率;2)通过Excel批量导入任务(文件名+M3U8地址);3)内置失败自动重试机制和文件完整性检查;4)自动清理非法字符文件名并转换为MP4格式。工具使用FFmpeg作为底层处理引擎,结合pandas进行任务管理,通过线程安全队列和锁机制确保稳定运行,适用于需要批量下载M3U8视频流的场景。
2025-12-06 21:15:33
962
原创 html实体化编码字符串的json解析
优先使用标准库比手动替换可靠一万倍容错解析:遇到不规范JSON时,是秘密武器分层处理:先解HTML实体,再修JSON格式,最后正式解析,每一步都要异常捕获调试技巧:打印字符串切片(如[:200])而非全部,能快速定位问题。
2025-11-08 20:57:56
930
原创 kickstarter数据采集
Kickstarter 是一个全球知名的众筹平台,专注于帮助创作者、艺术家和创业者通过公众筹资实现创意项目。自 2009 年成立以来,该平台已成功支持了数百万个项目,涵盖艺术、科技、影视、音乐、设计等多个领域。本数据集几乎囊括了项目的所有数据。
2025-10-16 21:19:13
1853
原创 使用Python将CSV文件高效转换为DTA文件
在数据分析工作中,我们经常需要处理不同格式的数据文件。CSV(逗号分隔值)是一种通用的数据交换格式,而DTA则是Stata统计软件使用的专用数据格式。本文将介绍如何使用Python的pandas库快速实现CSV到DTA文件的转换,并提供一个实用的转换函数。
2025-10-12 18:21:59
318
原创 改良cpca库以实现百万级复杂中文地址解析
本文将原有cpca库进行改良,以支持百万级复杂中文地址解析。原库因行政区划表过时导致解析率低,作者使用阿里最新行政区划表替换,并针对直辖市和省直辖县的特殊情况设计补全逻辑(直辖市用省补全,其他用县补全)。改良后解析率显著提升,解决了原方案17%未解析的问题。完整代码和更新后的行政区划表可通过公众号"易派森"获取。
2025-10-08 22:46:43
1148
原创 一款可以根据进程抓包的工具:Fatbeans
Fatbeans抓包调试软件深度解析:一款无需进程注入的轻量级网络调试工具 摘要:Fatbeans是一款面向开发者和安全人员的网络抓包工具,其核心优势在于精准的进程抓包功能。工具支持通过进程名称、PID及复杂规则筛选目标流量,兼容32/64位应用及虚拟环境,采用无侵入式网络层拦截技术确保安全性。15M轻量体积下提供HTTP(S)/WebSocket等多协议支持,可视化操作界面简化了传统抓包工具的复杂配置流程。相比Wireshark等工具,Fatbeans在进程级流量捕获上具有更高便捷性和稳定性,特别适合移动
2025-10-04 20:46:18
708
原创 解决PDF批量添加水印时的旋转适配问题
本文介绍的解决方案通过检测PDF页面旋转角度、进行坐标转换和相应的画布变换,成功解决了不同旋转角度PDF文件的水印适配问题。核心思路是将视觉上的预期位置转换为PDF内部坐标系的实际位置,并对不同旋转角度应用相应的变换。支持文字水印的旋转适配增加水印透明度、旋转角度等自定义选项支持多页水印添加(可选择首页、全部页面或指定页面)优化临时文件处理,提高大文件处理效率通过这种方法,我们可以确保在各种旋转状态的PDF文件上都能精准添加水印,极大提高批量处理PDF文件的效率和质量。
2025-10-03 18:25:11
1149
原创 批量解析中文字符串中的地址信息
本文介绍了一个基于Python的高级地址解析器,能够将非结构化中文地址转换为包含省、市、区三级行政区划的结构化地理信息。该系统采用多层解析策略,结合正则表达式和前缀树数据结构,实现高效准确的地址解析。核心功能包括地址清洗、多策略解析(正则解析与智能评分解析)、批量处理支持以及地理编码信息提取。系统通过阿里云行政区划数据构建本地数据库,并采用面向对象设计,包含AddressTrie和AdvancedAddressParser两个核心类,分别负责地址组件匹配和解析流程控制。该解析器特别解决了传统方法在识别如&q
2025-09-29 16:27:43
1293
原创 Python实现PDF批量添加倾斜水印图片的方法详解
本文介绍了一种使用Python为PDF文件批量添加倾斜图片水印的方法。该方案通过Pillow处理图像(调整尺寸、亮度、旋转45度),PyPDF2操作PDF文件,reportlab生成临时PDF页面,实现将水印图片精准添加到PDF指定位置。核心功能包括毫米到点的单位转换、图像处理、随机位置计算和PDF合并。代码支持批量处理文件夹内所有PDF文件,并自动清理临时文件。使用前需安装相关库,可调整水印大小、暗度和位置参数,并建议先备份原始文件。该方案可扩展为多页水印、文字水印等更复杂功能。
2025-09-23 20:49:27
964
原创 全球数据中心爬虫
本文介绍了从DataCentermap.com爬取美国数据中心信息的实践过程。初始尝试直接查找数据接口失败,转而通过层级页面遍历获取数据:从美国总览页→各州列表页→城市列表页→数据中心详情页逐步深入。在详情页中发现完整数据存储在HTML的__NEXT_DATA__标签内,通过解析该JSON获取包括电力系统在内的完整信息。文章提供了核心解析代码示例,并说明可通过公众号获取完整爬虫代码和数据集。该方案利用规整的URL结构,采用层级遍历+URL拼接方式实现全量数据爬取。
2025-09-20 21:39:10
1476
原创 初探js逆向:全流程记录AI辅助爬虫加密参数解密
那么猜测当然是不准的,这里其实有个关键点,他告诉我这些加密函数是从外面导入的,比如g函数就是由a(‘6738’)导入的,我们直接在所有js中搜索6738。(如图 5 所示)图 5:在所有 js 中搜索加密函数导入关键字 “6738” 的结果就能看到这里有一个疑似函数定义,把这段代码发给ai一问,果然是的。在此郑重强调,本文纯粹是为了记录技术思路而撰写,整个过程仅用于技术研究和分享,笔者在后续也并未通过破解加密的方式非法获取数据。
2025-09-16 21:38:47
1321
原创 Python实现Windows打印机监控
Python Windows打印机监控系统 本文介绍了一个基于Python的Windows打印机监控系统,主要功能包括: 核心功能: 实时监控指定打印机的作业状态 检测并显示新打印任务的详细信息 支持多线程持续监控 技术实现: 使用win32print库与Windows打印系统交互 通过多线程实现后台监控 提供状态码转换功能将系统代码转为可读文本 系统特点: 可列出系统中所有可用打印机 检查管理员权限以保证功能完整性 完善的错误处理机制 该系统适合需要监控打印作业的企业环境,代码结构清晰,易于扩展和维护。
2025-09-08 21:22:53
991
原创 腾讯会议录屏损坏修复:使用 recover_mp4 工具的完整解决方案
腾讯会议录屏损坏修复指南 当腾讯会议录屏因电脑蓝屏等意外导致MP4文件损坏时,可使用recover_mp4工具结合FFMPEG进行修复。操作步骤包括:1)准备相同参数正常视频作为参考;2)分析正常视频生成结构文件;3)分离损坏视频的音视频流;4)使用FFMPEG重新封装。该方法能有效修复因意外中断导致的视频索引损坏问题。修复前需将工具和文件放在同一目录下,并确保参考视频与损坏录屏的参数完全一致。
2025-09-05 12:15:22
1945
原创 使用 PyInstaller 打包 Python 项目时,如何实现外部模型和配置文件的灵活调用:深入理解 PyInstaller 的 `--collect-all` 和 `--add-data` 参数
本文介绍了使用PyInstaller打包Python项目时处理外部模型和配置文件的方法。针对HanLP自然语言处理库加载本地模型和读取JSON配置文件的问题,提出了解决方案:1)通过resource_path()函数处理不同环境下的资源路径;2)使用--add-data参数打包模型文件;3)采用--collect-all确保依赖完整;4)优先读取外部配置文件实现动态更新。文章详细说明了路径处理机制、依赖管理策略,并提供了完整打包命令示例,解决了打包后路径识别、模块缺失和配置文件更新等问题。
2025-09-03 22:37:47
1326
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅