- 博客(48)
- 资源 (4)
- 收藏
- 关注
原创 Python爬虫实战:淘宝模拟人工搜索关键词采集商品列表
摘要:本文介绍了使用uiautomator2自动化操作淘宝APP采集商品列表的完整方案。主要内容包括环境准备、设备连接、元素定位、代码实现及风险控制。通过Python脚本模拟人工操作流程,包括启动APP、搜索商品、滚动列表、采集数据等步骤。文中特别强调了元素定位的挑战性、操作频率控制的重要性,以及账号设备可能面临的风险。建议使用Weditor工具实时调整元素选择器,设置随机延迟模拟人类行为,并遵守平台规则。该方案适用于小规模数据采集,但需注意淘宝UI结构变化快、检测严格的特点。
2025-10-20 21:13:56
549
原创 Python爬虫实战:OCR技术和滑动验证码识别技术讲解
本文介绍了两种解决Python爬虫验证码问题的实用方案:1. 利用腾讯云/讯飞等开放平台OCR技术识别文字验证码,详细说明了API调用流程和注意事项;2. 使用ddddocr库识别滑动验证码缺口位置,配合Selenium模拟人类滑动轨迹进行破解。文章还提供了完整的代码示例,包括图片处理、API调用和轨迹模拟等关键步骤,并补充了无代码方案、第三方打码平台等备选思路。最后强调要合法合规使用这些技术,为开发者提供了一套可直接上手的验证码解决方案。
2025-10-15 11:20:00
102
原创 Python实战:实现监测抖音主播是否开播并录屏
本文介绍了使用Python自动录制抖音直播的技术方案。核心步骤包括:1)通过浏览器开发者工具获取直播间ID和API请求参数;2)使用requests库循环查询直播状态;3)解析JSON响应获取m3u8/flv流地址;4)调用FFmpeg进行录制。文中提供了代码框架示例,并强调难点在于逆向分析抖音API接口,建议参考已有开源项目。注意事项包括遵守平台规则、处理网络波动及签名参数等问题。该方案适合技术研究,需注意合法合规使用。
2025-09-14 17:27:36
349
原创 python爬虫的逆向技术讲解
本文摘要: 爬虫逆向技术是破解网站保护机制的关键,主要包括以下核心技术:1.JS逆向(最常见):通过分析浏览器网络请求和源代码,定位并模拟加密参数生成逻辑,使用工具如Chrome开发者工具、反混淆工具和Python执行JS的库;2.验证码处理:针对不同类型验证码(图像、行为等)采用OCR、第三方打码平台或模拟操作应对;3.浏览器指纹伪装;4.APP逆向:通过抓包、反编译和Hook技术分析移动端加密逻辑;5.API逆向分析;6.WASM逆向。
2025-09-14 16:50:37
1501
原创 Python爬虫实战: 纵横中文网小说爬取方案与代码实现
本文介绍了使用Python爬取纵横中文网小说数据的两种方法:基础爬虫(Requests+Lxml)和高级爬虫(Scrapy框架)。基础爬虫部分详细说明了如何获取小说列表、解析详情页并保存为CSV文件,包含随机延迟和User-Agent等反爬策略。Scrapy爬虫部分展示了项目创建、数据模型定义、爬虫编写以及中间件配置,强调了大批量爬取时的专业处理。文章还提供了应对反爬机制的策略(代理IP、验证码处理等)、多种数据存储方式(CSV/JSON/数据库)以及重要注意事项(法律合规、频率控制等)。最后给出了常见问题
2025-09-03 20:06:17
870
原创 Python爬虫实战: 基于Scrapy的Amazon跨境电商选品数据爬虫方案
摘要: 本文介绍了一个基于Python的Amazon跨境电商选品数据爬取方案,采用Scrapy框架实现结构化数据抓取,辅以aiohttp处理高并发请求。方案通过模拟浏览器行为绕过反爬机制,抓取商品标题、价格、评分等关键信息,并结合数据分析评估市场竞争与潜力。内容涵盖环境配置、Scrapy项目搭建、核心代码实现(包括数据解析与存储)、高并发优化及选品分析维度(如市场需求、利润空间)。文章强调合规性与反爬策略,建议使用代理IP池和请求频率控制以降低风险,并提供了数据清洗与可视化分析示例。最终目标是辅助选品决策,
2025-09-02 16:47:25
1466
原创 Python爬虫: 分布式爬虫架构讲解及实现
选择哪种分布式爬虫方案,主要取决于你的具体需求、数据规模和技术偏好。对于大多数从 Scrapy 过渡到分布式的开发者,是无缝衔接、社区支持最好、最稳妥的选择。如果你需要极高的去重效率和应对海量 URL,可以关注集成了布隆过滤器的方案(如 Spiderman)。对于超大规模、需要高度定制和智能化管理的爬取任务,可以借鉴一些结合了深度强化学习等智能调度策略的架构思路。希望以上讲解能帮助你更好地理解和选择 Python 分布式爬虫框架。
2025-08-26 18:15:10
997
原创 Python爬虫实战:爬取链家/贝壳数据预测房价走势
本文提出了一套基于贝壳网数据的房价分析预测方案,该方案包含完整的分析流程:首先通过Python爬虫获取贝壳网二手房数据,包括价格、面积、区域等关键信息;随后进行数据清洗和特征工程处理;接着通过EDA可视化分析数据特征;最后构建多种机器学习模型(随机森林、XGBoost等)进行房价预测,并实现了ARIMA时间序列预测。方案还提供了特征重要性分析和模型调优方法,形成了一套从数据采集到预测分析的完整解决方案,可为房地产市场分析提供数据支持。
2025-08-26 18:04:04
207
原创 Python爬虫实战:Uiautomator2 详解与应用场景
摘要: Uiautomator2是一个Python库,封装了Google的UIAutomator框架,支持Android 4.4+设备的自动化操作,适用于测试、爬虫等场景。其核心功能包括: 环境配置:通过pip安装库及辅助工具(如weditor),初始化设备并安装守护进程。 设备连接:支持USB(稳定)和WiFi(便捷)两种方式,适配多设备管理。 元素操作:结合weditor定位控件(text、resourceId等),支持点击、滑动、输入等交互,提供等待机制增强稳定性。
2025-08-26 15:31:07
176
原创 Python爬虫实战: 爬虫常用到的技术及方案详解
Python爬虫技术涵盖了从简单的网页请求到复杂的分布式系统设计。选择合适的工具和技术取决于你的具体需求:对于简单任务:Requests + BeautifulSoup/Lxml对于复杂项目:Scrapy框架对于JavaScript渲染的页面:Selenium/Playwright对于大规模爬取:分布式架构+代理池无论使用哪种技术,都应始终遵守法律法规和道德准则,尊重网站的资源和使用条款。
2025-08-25 22:04:08
1403
原创 Python爬虫实战:Selenium模拟操作爬取马蜂窝旅游攻略
本文介绍了使用Selenium爬取马蜂窝旅游攻略的完整流程。主要内容包括:1.环境准备,安装Selenium库和浏览器驱动;2.核心爬取步骤,涵盖页面加载等待、元素定位、数据提取等关键环节;3.注意事项,包括反爬机制应对、性能优化和法律合规问题。文章提供了详细的代码示例,并强调需根据实际网页结构调整选择器。最后建议使用开发者工具分析网站结构,这是实现成功爬取的关键。
2025-08-25 21:31:11
356
原创 Python爬虫项目实战: 新手-爬取豆瓣Top250电影
本文介绍了一个使用Python技术栈异步爬取豆瓣电影Top250榜单的完整项目。项目采用现代技术组合:aiohttp实现异步请求,parsel进行HTML解析,pandas存储数据到Excel,并包含反爬策略(随机User-Agent、代理IP、请求限速)和数据分析可视化功能。代码结构清晰,包含爬取、解析、存储、分析全流程,通过异步并发显著提升效率。项目特别注重反爬规避和错误处理,最后通过matplotlib生成评分分布、年份统计等可视化图表,并输出关键数据分析结果。
2025-08-24 21:30:17
812
原创 Spring Boot+Activiti7入坑指南初阶版
Activiti 是一个轻量级工作流程和业务流程管理 (BPM) 平台,面向业务人员、开发人员和系统管理员。其核心是一个超快且坚如磐石的 Java BPMN 2 流程引擎。它是开源的,并根据 Apache 许可证分发。Activiti 可以在任何 Java 应用程序、服务器、集群或云中运行。它与 Spring 完美集成,非常轻量级并且基于简单的概念。
2025-05-29 17:01:08
1565
原创 PyQt5+Yolov8实现车牌检测系统
车牌识别系统(Vehicle License Plate Recognition,VLPR) 使用PyQt5+Yolov8实现车牌检测系统,搭建带UI界面的操作系统。
2025-02-27 16:01:14
711
原创 Yolov8入门篇:环境安装和使用
Ultralytics YOLO是广受好评的YOLO(你只看一次)系列的最新进展,用于实时对象检测和图像分割。它建立在以前版本的基础上,引入了新的功能和改进,增强了性能、灵活性和效率。YOLO支持各种。
2024-10-24 14:55:18
1228
原创 Qt+FFmpeg开发视频播放器笔记(三):音视频流解析封装
Qt6+FFmpeg SDL解码音视频播放,使用多线程,实现播放 暂停 和拖动快进播放功能。
2024-09-11 16:00:30
1909
2
原创 Qt+FFmpeg开发视频播放器笔记(一):环境搭建
FFmpeg是一个开源的跨平台多媒体处理工具集,它可以用于处理音频、视频和其他多媒体数据。FFmpeg提供了一组功能强大的命令行工具,用于音频和视频的编解码、转换、处理、流媒体传输等任务。FFmpeg支持多种音频和,包括常见的MP3、AAC、FLAC、H.264、H.265等。它可以进行音频和视频的编码(将数据压缩为特定格式)、解码(将数据解压为原始格式)、转码(在不同格式之间进行转换)、剪辑、合并、提取音频或视频流、添加字幕、调整音量、应用滤镜效果等操作。
2024-08-25 16:36:42
1433
原创 Golang:依赖注入与wire
依赖注入(dependency injection,缩写DI)是一种软件设计模型,用于实现类之间的解耦和依赖关系的管理。它通过将依赖关系的创建和维护责任转移到外部容器中,使得类不需要自己实例化依赖对象,而是由外部容器动态地注入依赖。依赖注入的实现方式包括构造函数注入、属性注入、接口注入等,每种方式都有其特定的用途和优势。修改后代码,我们把db的初始化放到了NewService的外面,在调用NewService的时候将其通过传参的方式传递过来。在Golang只使用依赖注入的核心目的,其实就是为了解耦代码。
2024-06-15 22:45:00
2415
3
原创 Golang:浅析Context包
在golang官方文档中是这样介绍context包的:在context包中定义了context类型来在不同的Goroutine 之间传递上下文,携带截止时间、取消信号以及携带上下文的系统参数(k-v)的类型。对服务器的传入请求应该创建上下文,对服务器的传出调用应该接受上下文。它们之间的函数调用链必须传播上下文,可以选择将其替换为使用WithCancel、WithDeadline、WithTimeout或WithValue创建的派生上下文。
2023-10-31 10:04:43
483
1
原创 Go中的编程模式:Pipeline
本文章我们重点来介绍一下 Go 编程中的 Pipeline 模式。用过 Linux 命令行的人都不会陌生,它是一种把各种命令拼接起来完成一个更强功能的技术方法,在C语言中也有pipe管道的叫法,具体的有兴趣的同学也可以去了解。现在的流式处理、函数式编程、应用网关对微服务进行简单的 API 编排,其实都是受 Pipeline 这种技术方式的影响。Pipeline 可以很容易地把代码按单一职责的原则拆分成多个高内聚低耦合的小模块,然后轻松地把它们拼装起来,去完成比较复杂的功能。
2023-10-20 15:16:59
510
原创 Qt+go-Fastdfs 仿百度云盘开发笔记-服务端功能实现(二)
Qt+go-Fastdfs 仿百度云盘开发笔记-服务端功能实现,使用Gin框架,数据存储使用Mysql.
2023-03-31 22:19:59
378
原创 Qt+go-Fastdfs 仿百度云盘开发笔记(一)
Qt+go-Fastdfs 仿百度云盘开发笔记,基于Nginx作为反向代理和轻量级web服务器,客户端使用Qt搭建,后台应用使用Go-Gin框架开发。分布式解决方案用Go-Fastdfs,简介和安装部署可参考Go-Fastdfs安装部署,数据存储使用mysql和redis进行缓存。
2022-12-11 22:25:40
984
原创 Opencv开发笔记(三):使用形态学滤波对图像进行边缘及角点检测
Qt+opencv使用形态学滤波对图像进行边缘及角点检测,从而获取一副灰度图像的边缘图。
2022-11-03 22:08:32
791
原创 OpenCV开发笔记:mingwQt5.9.1和opencv3.4.1的搭建开发环境
cmake mingw 编译opencv 搭建Qt+opencv开发环境
2022-10-16 16:52:54
910
原创 Anaconda2安装及环境移植使用
一、Anaconda安装·执行bash Anaconda2-4.4.0-Linux-x86_64进行Anaconda的安装··进入安装程序,提示输入“ENTER”继续:·Please,pressENTERtocontinue>>>ENTER复制代码··输入yes确认接受许可协议·Doyouacceptthelicenseterms?[yes|no][no]>>>yes复制代码··...
2021-04-07 15:22:44
910
原创 使用Python+Qt5 制作带UI界面的多线程配爬取小程序
M3U8文件,ts格式视频文件爬取 带DUI界面的爬取软件 开发语言:Python+QT5 使用多线程爬取下载视频文件,可使用配置文件修改线程数量。GitHub:https://github.com/asdbaihu/Crawler-9.git
2021-03-31 10:14:31
447
原创 TBase环境部署过程及使用一
TBase简介Tbase是腾讯开源的一个提供写可靠性,多主节点数据同步的关系数据库集群平台.你可以将Tbase配置一台或者多台主机上,Tbase数据存储在多台物理主机上面.数据表的存储有两种方式,分别是分布式或者复制,当向TBase发送查询SQL时,TBase会自动向数据节点发出查询语句并获取最终结果。TBase采用分布式集群架构(如下图),该架构分布式为无共享(无共享)模式,节点之间相应独立,各自处理自己的数据,处理后的结果可能向上层汇总或在节点间流转,各处理单元之间通过网络协议进行通信,并行处理
2020-07-22 14:57:14
4490
原创 OpenSSL-OpenSSH 安全漏洞(CVE-2018-0739)离线升级-自制脚本一键升级
因为最近项目使用绿盟扫描,出现一些安全漏洞,查找资料发现是openssl、openssh版本低的原因,所有记录一次离线升级openssl、openssh。查看openssl与openssh的现有版本openssl# openssl version -aopenssh# ssh -V...
2020-06-12 17:13:07
1712
2
DeepSeek本地部署工具LM Studio
2025-02-20
Qt+go-Fastdfs 仿百度云盘开发笔记代码一,试用Qt实现登录和注册功能
2022-12-11
update_ssh_ssl.tgz
2020-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅