- 博客(20)
- 收藏
- 关注
原创 从单机到分布式:Python 爬虫架构演进
本文系统介绍了Python爬虫开发的五个进阶阶段:1. 单机爬虫基础:讲解requests库使用、解析技术、重试机制和持久化存储等基础技能;2. Scrapy框架应用:分析Scrapy的核心架构和优势,展示如何实现工程化爬虫;3. 异步高并发:介绍asyncio和aiohttp实现高并发请求的技术;4. 分布式爬虫:探讨基于Redis等消息队列的分布式方案,以及Scrapy-Redis的应用;5. 反爬对抗:总结常见反爬手段及应对策略,包括参数破解、字体反爬和智能化对抗。文章从基础到高级,完整呈现了Pyth
2025-08-30 13:46:16
3525
原创 Opnecv详细介绍
本文全面介绍了OpenCV计算机视觉库的核心功能与应用。从基础安装、图像处理(滤波、边缘检测、阈值分割、形态学操作),到高级技术(特征提取、目标检测、视频处理),最后结合深度学习实现目标识别和人脸检测。OpenCV作为开源跨平台的计算机视觉工具,支持多种语言和硬件加速,在安防、自动驾驶、医疗影像等领域应用广泛。通过本文的案例演示,读者可以快速掌握OpenCV的核心功能并应用于实际项目开发。
2025-08-22 21:22:13
979
原创 Pandas 2.0 + Arrow 加速、Dask vs Ray、Plotly 可视化:数据分析的未来
在数据科学快速发展的今天,工具链正经历新一轮的进化。Pandas 2.0 引入 Apache Arrow 后端,让数据处理在性能和跨平台兼容性上迈出了重要一步;Dask 与 Ray 分别代表了分布式计算的两条路径,一个更贴近大数据处理,一个则在 AI 与分布式服务中大放异彩。与此同时,Plotly Express 与 Altair 等交互式可视化工具,正在重塑数据探索与展示的方式,让分析结果不仅仅停留在静态图表,而是具备实时交互与动态洞察的能力。未来,数据分析将继续朝着 高性能、分布式、交互化 的方向演进,
2025-08-17 11:07:02
1416
原创 Python 常用库速查手册
Python 常用库速查手册不仅是一份工具清单,更是一把帮助开发者高效解决问题的“瑞士军刀”。它涵盖了数据分析、爬虫开发、Web 构建、机器学习、办公自动化、图像处理等多个领域,让不同背景的开发者都能快速找到适用的库。掌握这些常用库,不仅能减少重复造轮子的时间,还能借助社区成熟的解决方案提升代码的健壮性与可维护性。在实际项目中,我们不必一次性精通所有库,而是应根据业务需求按需深入学习,这样既能保证效率,也能让技能体系不断扩展
2025-08-15 20:29:36
1169
原创 js加密逆向
在现代网页与接口交互中,JavaScript 加密已成为保护数据安全与防止恶意访问的重要手段。无论是接口签名、令牌生成,还是请求参数加密,这些机制的本质是通过前端逻辑与密钥算法来验证请求的合法性。对于数据采集、自动化测试或安全研究人员来说,理解和分析这些加密流程,不是为了规避安全机制,而是为了在获得合法授权的前提下,确保程序端能够正确构造请求,与系统保持一致性。本文将以合规、安全为前提,总结 JS 加密逆向在 Python 爬虫中的常用方法与注意事项,帮助读者在学习技术的同时,时刻牢记法律与道德边界。
2025-08-14 18:57:32
2190
原创 Vibe Coding 自然语言驱动 AI 编程方式
《VibeCoding:对话式AI编程新范式》摘要 VibeCoding是由AI专家Andrej Karpathy推广的新型编程理念,主张通过自然语言对话让AI生成代码,开发者只需描述需求而非编写具体语法。其核心特点包括:自然语言驱动开发、AI处理技术细节、人类专注需求把控,适用于快速原型开发。Python因其简单性成为主要实现语言。典型场景中,开发者通过多轮对话迭代完善代码(如爬虫脚本),AI自动完成语法实现和错误修复。这种模式极大降低了编程门槛,但存在依赖性强、代码质量不稳定等问题,更适用于中小型项目而
2025-08-11 22:27:09
1056
原创 代理 IP 技术全方位详解与实战指南
随着网络爬虫和数据采集需求不断增长,代理 IP 成为绕过反爬虫限制的重要工具。然而,代理 IP 的使用不仅关乎效率,更涉及安全与合规风险。本指南全面阐述了代理 IP 的安全规范使用原则,强调选择可信赖的代理服务商、采用加密传输(HTTPS/TLS)保护数据隐私、防范中间人攻击和恶意代理威胁。结合身份认证和访问权限控制,保障代理资源的安全使用。同时,遵循相关法律法规,合理管理和使用代理,避免非法抓取和数据泄露风险。通过科学的代理池设计、动态健康检测和智能调度,实现高效稳定的爬取效果与安全防护并重。安全规范的代
2025-08-09 22:04:40
1710
原创 用模拟数据完整演示Python数据分析实战:基于NumPy和pandas的详解
本文以Python的NumPy和pandas为核心工具,完整演示了数据分析11个关键环节:从模拟销售数据生成开始,逐步进行数据观察、清洗(缺失值处理)、类型转换、筛选排序、分组聚合等操作,并展示了透视表、时间序列分析、数据合并等高级技巧,最后通过可视化呈现统计结果。每个步骤配有详细代码说明,帮助读者系统掌握从数据准备到分析挖掘的全流程方法,为实际业务决策提供数据支持。
2025-08-08 13:08:55
1612
原创 爬虫封装的两种策略:函数式 vs 面向对象模块化的系统对比
本文对比了Python爬虫开发的两种封装方式:函数式封装和面向对象+模块化封装。函数式封装采用线性结构,将各步骤拆分为独立函数,适合初学者和小型项目,具有简洁直观的特点,但可扩展性和复用性较差。面向对象+模块化封装通过拆分功能模块(配置、工具、存储、爬虫类等),提高了代码的可维护性和扩展性,适合中大型项目,虽然学习门槛较高但长期收益显著。建议初学者从函数式入手,逐步过渡到模块化结构,以构建更专业的爬虫系统。
2025-08-06 14:39:31
706
原创 使用 Python 异步爬虫抓取豆瓣电影Top250排行榜
本文介绍了使用Python异步编程框架asyncio和aiohttp构建高效爬虫的方法。通过分析豆瓣电影Top250网站结构,详细讲解了如何实现并发请求控制(使用Semaphore)、异步数据抓取和XPath解析。文章包含完整的代码实现,包括主控制器、任务调度和性能测量,并展示了250条电影数据的抓取结果。相比传统同步爬虫,该方案具有非阻塞I/O、高并发和低资源消耗等优势。最后还提出了异常处理、超时控制、数据持久化等改进方向,为开发者构建生产级异步爬虫提供了实用指导。
2025-08-05 09:44:25
1199
原创 正则表达式(re模块)超详细讲解
本文介绍了Python中re模块的核心功能与正则表达式应用技巧。教程从基础匹配(re.search)、批量提取(re.findall)到高级功能分组匹配、命名分组、懒惰匹配等,系统讲解了12个实用知识点。重点解析了贪婪匹配与懒惰匹配的区别,通过HTML标签提取等案例展示了非贪婪匹配(*?)的实际应用。文章还提供了正则表达式功能对照表,涵盖数字匹配、字符集、边界控制等常见场景,并推荐使用re.compile()优化性能。最后强调正则表达式在数据处理、日志分析等领域的重要性,建议通过实践掌握这一文本处理利器。
2025-08-04 21:06:50
802
原创 python aiohttp使用cookie
本文介绍了在aiohttp中使用Cookie的三种方法:1)通过cookies参数直接设置;2)自动接收并复用服务器返回的Cookie;3)手动设置请求头(不推荐)。文章详细讲解了如何从浏览器导出Cookie并转换为Python字典,以及如何实现模拟登录后自动携带Cookie的功能。此外还提供了Cookie持久化存储的进阶方法,并强调异步爬虫需要注意控制并发量。aiohttp的ClientSession默认启用cookie_jar,可自动管理Cookie,建议使用推荐的第一种方式设置Cookie。
2025-08-03 12:59:48
668
原创 XPath 语法与爬虫实战总结指南
XPath是用于XML/HTML文档数据定位的查询语言,广泛应用于网页爬虫开发。本文提供了XPath基础语法速查表,包括节点选择、属性提取等核心表达式;通过11个典型示例演示文本内容、链接地址、列表项等常见元素的提取方法;最后给出一个综合案例,展示如何从完整HTML页面中提取标题、菜单、图片等各类数据。XPath具有灵活性强、定位精准的特点,建议使用相对路径和模糊匹配提高代码健壮性,适用于新闻、电商等各类网页数据抓取场景。掌握XPath能显著提升爬虫开发效率。
2025-08-02 23:25:04
2582
原创 使用 lxml.html 的 CSS 选择器提取教程
本文介绍了使用Python的lxml.html库配合CSS选择器提取HTML内容的方法,涵盖12种常用选择器:包括标签、类、ID、子元素、后代、属性、结构(nth-child)、多类、相邻兄弟、通配符等选择器。每种选择器都配有HTML示例和对应的Python代码,展示如何提取特定元素内容。总结表格对比了各选择器的语法和使用场景,适用于网页爬虫、数据抓取等需求。lxml.html库性能优越,CSS选择器语法简单直观,特别适合前端开发者和爬虫初学者使用,也可与XPath结合进行更复杂的数据提取。
2025-08-02 21:22:45
841
原创 深入解析 Scrapy 爬虫框架:模块组成与实战应用全解
本文系统介绍了Python爬虫框架Scrapy的核心模块与使用方法。Scrapy项目包含spiders(爬虫逻辑)、items(数据模型)、pipelines(数据处理)、middlewares(请求/响应处理)等核心组件,通过settings统一配置。文章详细讲解了各模块功能,包括请求调度、异步下载、数据提取(CSS/XPath)、交互调试等关键技术,并介绍了分布式扩展方案。Scrapy框架具有模块化设计、高性能和可扩展性特点,适合构建各类爬虫系统,掌握其内部机制对提升爬虫开发效率具有重要意义。
2025-08-01 16:58:56
1500
3
原创 小红书用户信息收集:使用 Python + Aiohttp 异步提取小红书号与 IP 属地
小红书用户信息收集:使用 Python + Aiohttp 异步提取小红书号与 IP 属地
2025-07-27 09:40:30
1034
原创 猫眼电影字体文件实时获取 .woff
解析猫眼票房页面中的字体反爬链接 —— Python 实战讲解在爬取猫眼票房数据时,我们常会遇到「数字乱码」的问题,这是因为页面使用了动态字体加密(woff字体)来对数字进行混淆。为了破解这些反爬手段,我们首先需要获取页面中引用的字体文件链接(.woff),这篇文章将带你逐步实现这个目标。
2025-07-25 09:27:39
974
DFS 高频面试题精讲与代码实战
2025-08-13
异步爬虫抓取豆瓣电影Top250排行榜
2025-08-05
JD联盟高佣采集助手代码
2025-07-28
轻量级批量图片压缩代码(支持 JPG / PNG / WEBP)
2025-07-30
小红书搜索页笔记链接采集工具(Playwright + MongoDB)
2025-07-29
基于 Playwright 的淘宝商品信息自动采集脚本
2025-07-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅