自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 从单机到分布式:Python 爬虫架构演进

本文系统介绍了Python爬虫开发的五个进阶阶段:1. 单机爬虫基础:讲解requests库使用、解析技术、重试机制和持久化存储等基础技能;2. Scrapy框架应用:分析Scrapy的核心架构和优势,展示如何实现工程化爬虫;3. 异步高并发:介绍asyncio和aiohttp实现高并发请求的技术;4. 分布式爬虫:探讨基于Redis等消息队列的分布式方案,以及Scrapy-Redis的应用;5. 反爬对抗:总结常见反爬手段及应对策略,包括参数破解、字体反爬和智能化对抗。文章从基础到高级,完整呈现了Pyth

2025-08-30 13:46:16 3525

原创 Opnecv详细介绍

本文全面介绍了OpenCV计算机视觉库的核心功能与应用。从基础安装、图像处理(滤波、边缘检测、阈值分割、形态学操作),到高级技术(特征提取、目标检测、视频处理),最后结合深度学习实现目标识别和人脸检测。OpenCV作为开源跨平台的计算机视觉工具,支持多种语言和硬件加速,在安防、自动驾驶、医疗影像等领域应用广泛。通过本文的案例演示,读者可以快速掌握OpenCV的核心功能并应用于实际项目开发。

2025-08-22 21:22:13 979

原创 Pandas 2.0 + Arrow 加速、Dask vs Ray、Plotly 可视化:数据分析的未来

在数据科学快速发展的今天,工具链正经历新一轮的进化。Pandas 2.0 引入 Apache Arrow 后端,让数据处理在性能和跨平台兼容性上迈出了重要一步;Dask 与 Ray 分别代表了分布式计算的两条路径,一个更贴近大数据处理,一个则在 AI 与分布式服务中大放异彩。与此同时,Plotly Express 与 Altair 等交互式可视化工具,正在重塑数据探索与展示的方式,让分析结果不仅仅停留在静态图表,而是具备实时交互与动态洞察的能力。未来,数据分析将继续朝着 高性能、分布式、交互化 的方向演进,

2025-08-17 11:07:02 1416

原创 Python 常用库速查手册

Python 常用库速查手册不仅是一份工具清单,更是一把帮助开发者高效解决问题的“瑞士军刀”。它涵盖了数据分析、爬虫开发、Web 构建、机器学习、办公自动化、图像处理等多个领域,让不同背景的开发者都能快速找到适用的库。掌握这些常用库,不仅能减少重复造轮子的时间,还能借助社区成熟的解决方案提升代码的健壮性与可维护性。在实际项目中,我们不必一次性精通所有库,而是应根据业务需求按需深入学习,这样既能保证效率,也能让技能体系不断扩展

2025-08-15 20:29:36 1169

原创 js加密逆向

在现代网页与接口交互中,JavaScript 加密已成为保护数据安全与防止恶意访问的重要手段。无论是接口签名、令牌生成,还是请求参数加密,这些机制的本质是通过前端逻辑与密钥算法来验证请求的合法性。对于数据采集、自动化测试或安全研究人员来说,理解和分析这些加密流程,不是为了规避安全机制,而是为了在获得合法授权的前提下,确保程序端能够正确构造请求,与系统保持一致性。本文将以合规、安全为前提,总结 JS 加密逆向在 Python 爬虫中的常用方法与注意事项,帮助读者在学习技术的同时,时刻牢记法律与道德边界。

2025-08-14 18:57:32 2190

原创 Vibe Coding 自然语言驱动 AI 编程方式

《VibeCoding:对话式AI编程新范式》摘要 VibeCoding是由AI专家Andrej Karpathy推广的新型编程理念,主张通过自然语言对话让AI生成代码,开发者只需描述需求而非编写具体语法。其核心特点包括:自然语言驱动开发、AI处理技术细节、人类专注需求把控,适用于快速原型开发。Python因其简单性成为主要实现语言。典型场景中,开发者通过多轮对话迭代完善代码(如爬虫脚本),AI自动完成语法实现和错误修复。这种模式极大降低了编程门槛,但存在依赖性强、代码质量不稳定等问题,更适用于中小型项目而

2025-08-11 22:27:09 1056

原创 代理 IP 技术全方位详解与实战指南

随着网络爬虫和数据采集需求不断增长,代理 IP 成为绕过反爬虫限制的重要工具。然而,代理 IP 的使用不仅关乎效率,更涉及安全与合规风险。本指南全面阐述了代理 IP 的安全规范使用原则,强调选择可信赖的代理服务商、采用加密传输(HTTPS/TLS)保护数据隐私、防范中间人攻击和恶意代理威胁。结合身份认证和访问权限控制,保障代理资源的安全使用。同时,遵循相关法律法规,合理管理和使用代理,避免非法抓取和数据泄露风险。通过科学的代理池设计、动态健康检测和智能调度,实现高效稳定的爬取效果与安全防护并重。安全规范的代

2025-08-09 22:04:40 1710

原创 用模拟数据完整演示Python数据分析实战:基于NumPy和pandas的详解

本文以Python的NumPy和pandas为核心工具,完整演示了数据分析11个关键环节:从模拟销售数据生成开始,逐步进行数据观察、清洗(缺失值处理)、类型转换、筛选排序、分组聚合等操作,并展示了透视表、时间序列分析、数据合并等高级技巧,最后通过可视化呈现统计结果。每个步骤配有详细代码说明,帮助读者系统掌握从数据准备到分析挖掘的全流程方法,为实际业务决策提供数据支持。

2025-08-08 13:08:55 1612

原创 爬虫封装的两种策略:函数式 vs 面向对象模块化的系统对比

本文对比了Python爬虫开发的两种封装方式:函数式封装和面向对象+模块化封装。函数式封装采用线性结构,将各步骤拆分为独立函数,适合初学者和小型项目,具有简洁直观的特点,但可扩展性和复用性较差。面向对象+模块化封装通过拆分功能模块(配置、工具、存储、爬虫类等),提高了代码的可维护性和扩展性,适合中大型项目,虽然学习门槛较高但长期收益显著。建议初学者从函数式入手,逐步过渡到模块化结构,以构建更专业的爬虫系统。

2025-08-06 14:39:31 706

原创 使用 Python 异步爬虫抓取豆瓣电影Top250排行榜

本文介绍了使用Python异步编程框架asyncio和aiohttp构建高效爬虫的方法。通过分析豆瓣电影Top250网站结构,详细讲解了如何实现并发请求控制(使用Semaphore)、异步数据抓取和XPath解析。文章包含完整的代码实现,包括主控制器、任务调度和性能测量,并展示了250条电影数据的抓取结果。相比传统同步爬虫,该方案具有非阻塞I/O、高并发和低资源消耗等优势。最后还提出了异常处理、超时控制、数据持久化等改进方向,为开发者构建生产级异步爬虫提供了实用指导。

2025-08-05 09:44:25 1199

原创 正则表达式(re模块)超详细讲解

本文介绍了Python中re模块的核心功能与正则表达式应用技巧。教程从基础匹配(re.search)、批量提取(re.findall)到高级功能分组匹配、命名分组、懒惰匹配等,系统讲解了12个实用知识点。重点解析了贪婪匹配与懒惰匹配的区别,通过HTML标签提取等案例展示了非贪婪匹配(*?)的实际应用。文章还提供了正则表达式功能对照表,涵盖数字匹配、字符集、边界控制等常见场景,并推荐使用re.compile()优化性能。最后强调正则表达式在数据处理、日志分析等领域的重要性,建议通过实践掌握这一文本处理利器。

2025-08-04 21:06:50 802

原创 python aiohttp使用cookie

本文介绍了在aiohttp中使用Cookie的三种方法:1)通过cookies参数直接设置;2)自动接收并复用服务器返回的Cookie;3)手动设置请求头(不推荐)。文章详细讲解了如何从浏览器导出Cookie并转换为Python字典,以及如何实现模拟登录后自动携带Cookie的功能。此外还提供了Cookie持久化存储的进阶方法,并强调异步爬虫需要注意控制并发量。aiohttp的ClientSession默认启用cookie_jar,可自动管理Cookie,建议使用推荐的第一种方式设置Cookie。

2025-08-03 12:59:48 668

原创 XPath 语法与爬虫实战总结指南

XPath是用于XML/HTML文档数据定位的查询语言,广泛应用于网页爬虫开发。本文提供了XPath基础语法速查表,包括节点选择、属性提取等核心表达式;通过11个典型示例演示文本内容、链接地址、列表项等常见元素的提取方法;最后给出一个综合案例,展示如何从完整HTML页面中提取标题、菜单、图片等各类数据。XPath具有灵活性强、定位精准的特点,建议使用相对路径和模糊匹配提高代码健壮性,适用于新闻、电商等各类网页数据抓取场景。掌握XPath能显著提升爬虫开发效率。

2025-08-02 23:25:04 2582

原创 使用 lxml.html 的 CSS 选择器提取教程

本文介绍了使用Python的lxml.html库配合CSS选择器提取HTML内容的方法,涵盖12种常用选择器:包括标签、类、ID、子元素、后代、属性、结构(nth-child)、多类、相邻兄弟、通配符等选择器。每种选择器都配有HTML示例和对应的Python代码,展示如何提取特定元素内容。总结表格对比了各选择器的语法和使用场景,适用于网页爬虫、数据抓取等需求。lxml.html库性能优越,CSS选择器语法简单直观,特别适合前端开发者和爬虫初学者使用,也可与XPath结合进行更复杂的数据提取。

2025-08-02 21:22:45 841

原创 深入解析 Scrapy 爬虫框架:模块组成与实战应用全解

本文系统介绍了Python爬虫框架Scrapy的核心模块与使用方法。Scrapy项目包含spiders(爬虫逻辑)、items(数据模型)、pipelines(数据处理)、middlewares(请求/响应处理)等核心组件,通过settings统一配置。文章详细讲解了各模块功能,包括请求调度、异步下载、数据提取(CSS/XPath)、交互调试等关键技术,并介绍了分布式扩展方案。Scrapy框架具有模块化设计、高性能和可扩展性特点,适合构建各类爬虫系统,掌握其内部机制对提升爬虫开发效率具有重要意义。

2025-08-01 16:58:56 1500 3

原创 [特殊字符]️ 网络爬虫基础知识全面介绍(涵盖10+方面)

爬虫基础介绍

2025-07-31 09:47:25 716

原创 全面认识 Playwright:现代网页自动化与数据采集利器

全面认识 Playwright

2025-07-29 11:05:03 1365

原创 使用 Playwright 自动化采集京东联盟高佣商品信息

使用 Playwright 自动化采集京东联盟高佣商品信息

2025-07-28 21:20:40 723

原创 小红书用户信息收集:使用 Python + Aiohttp 异步提取小红书号与 IP 属地

小红书用户信息收集:使用 Python + Aiohttp 异步提取小红书号与 IP 属地

2025-07-27 09:40:30 1034

原创 猫眼电影字体文件实时获取 .woff

解析猫眼票房页面中的字体反爬链接 —— Python 实战讲解在爬取猫眼票房数据时,我们常会遇到「数字乱码」的问题,这是因为页面使用了动态字体加密(woff字体)来对数字进行混淆。为了破解这些反爬手段,我们首先需要获取页面中引用的字体文件链接(.woff),这篇文章将带你逐步实现这个目标。

2025-07-25 09:27:39 974

DFS 高频面试题精讲与代码实战

本资源系统整理了在技术面试中常见的 深度优先搜索(DFS) 类型考题,涵盖从入门到进阶的多种应用场景。每道题都配备 完整可运行代码、详细注释与思路解析,帮助你不仅能写出代码,更能向面试官清晰解释解题过程。 内容包括但不限于: 基础搜索类:如二叉树遍历、连通分量查找等。 组合与排列生成:典型的回溯应用场景。 棋盘类问题:如 N 皇后、迷宫路径搜索等。 多图搜索:图的连通性、最短路径等场景的 DFS 实现。 复杂场景建模:DFS 在图、网格、状态空间搜索中的变种用法。

2025-08-13

异步爬虫抓取豆瓣电影Top250排行榜

本项目是一个基于 Python 的异步网络爬虫,用于抓取 豆瓣电影 Top250 排行榜前 10 页的电影信息,包括: 电影名称 电影评分(含评价人数) 详情页地址 通过使用 asyncio + aiohttp 实现并发请求,显著提升爬取效率,适用于 I/O 密集型的网页爬取任务。 本项目仅用于技术学习与教学演示,不得用于商业或非法用途。如需采集真实数据请提前获取目标网站授权。

2025-08-05

JD联盟高佣采集助手代码

本脚本基于 Playwright 和 MongoDB 实现了自动化采集 京东联盟 平台上的商品信息,主要包括以下功能: 自动打开浏览器并登录(使用用户数据缓存) 自动点击“定向高佣”商品筛选 滚动页面并提取商品数据: 商品标题 商品店铺 到手价 推广佣金比例 商品链接 自动翻页,采集多页商品 自动去重(通过 MD5 商品标题生成唯一 ID) 采集结果写入本地 MongoDB 数据库

2025-07-28

轻量级批量图片压缩代码(支持 JPG / PNG / WEBP)

SlimPic 是一个基于 Python 和 Pillow 库开发的小型图片压缩工具,支持批量压缩指定目录下的常见图片格式。它适合摄影师、电商运营、前端工程师或内容创作者在不损失明显画质的前提下,快速缩小图片体积,加快加载速度或便于上传传输。 支持批量处理 JPG、PNG、JPEG、WEBP 等常见图片格式 自动调整图片宽度,超出时按比例缩放(默认最大宽度 800 像素) 支持自定义压缩质量(60~85 区间画质较优) 自动保留原始目录结构,输出至指定路径 兼容 Pillow 新旧版本(自动适配抗锯齿模式)

2025-07-30

小红书搜索页笔记链接采集工具(Playwright + MongoDB)

本工具是一个基于 Playwright 异步 API + MongoDB 数据存储 实现的小红书爬虫脚本,主要功能是: 自动化搜索指定关键词,并获取搜索结果页面的全部笔记链接,剔除广告内容,并保存到 MongoDB 数据库中。 适用场景: 想采集小红书笔记链接,作为后续评论/用户分析的基础数据源; 希望使用真实浏览器模拟人类行为,绕过简单的反爬虫机制; 适合已经登录过小红书网页端,具备登录态(用于访问更多笔记)的用户; 熟悉 Python 的中级开发者,具备 MongoDB 基础知识。

2025-07-29

基于 Playwright 的淘宝商品信息自动采集脚本

本项目是一个基于 Python 和 Microsoft Playwright 的淘宝商品信息爬虫脚本,能够自动化完成以下任务: 模拟真实用户打开淘宝网页 自动搜索指定商品关键词(如“手机”) 提取每页商品的标题、价格、店铺名称与主图链接 自动翻页,连续采集多页数据 将采集到的信息保存为 CSV 文件,方便后续数据分析或可视化展示 该脚本适合电商数据分析、竞品监控、价格趋势研究等场景。

2025-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除