python爬虫
文章平均质量分 89
Ghostycode
本人可接爬虫单,直接私信,1天内回复
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从单机到分布式:Python 爬虫架构演进
本文系统介绍了Python爬虫开发的五个进阶阶段:1. 单机爬虫基础:讲解requests库使用、解析技术、重试机制和持久化存储等基础技能;2. Scrapy框架应用:分析Scrapy的核心架构和优势,展示如何实现工程化爬虫;3. 异步高并发:介绍asyncio和aiohttp实现高并发请求的技术;4. 分布式爬虫:探讨基于Redis等消息队列的分布式方案,以及Scrapy-Redis的应用;5. 反爬对抗:总结常见反爬手段及应对策略,包括参数破解、字体反爬和智能化对抗。文章从基础到高级,完整呈现了Pyth原创 2025-08-30 13:46:16 · 3568 阅读 · 0 评论 -
js加密逆向
在现代网页与接口交互中,JavaScript 加密已成为保护数据安全与防止恶意访问的重要手段。无论是接口签名、令牌生成,还是请求参数加密,这些机制的本质是通过前端逻辑与密钥算法来验证请求的合法性。对于数据采集、自动化测试或安全研究人员来说,理解和分析这些加密流程,不是为了规避安全机制,而是为了在获得合法授权的前提下,确保程序端能够正确构造请求,与系统保持一致性。本文将以合规、安全为前提,总结 JS 加密逆向在 Python 爬虫中的常用方法与注意事项,帮助读者在学习技术的同时,时刻牢记法律与道德边界。原创 2025-08-14 18:57:32 · 2242 阅读 · 0 评论 -
使用 Python 异步爬虫抓取豆瓣电影Top250排行榜
本文介绍了使用Python异步编程框架asyncio和aiohttp构建高效爬虫的方法。通过分析豆瓣电影Top250网站结构,详细讲解了如何实现并发请求控制(使用Semaphore)、异步数据抓取和XPath解析。文章包含完整的代码实现,包括主控制器、任务调度和性能测量,并展示了250条电影数据的抓取结果。相比传统同步爬虫,该方案具有非阻塞I/O、高并发和低资源消耗等优势。最后还提出了异常处理、超时控制、数据持久化等改进方向,为开发者构建生产级异步爬虫提供了实用指导。原创 2025-08-05 09:44:25 · 1297 阅读 · 0 评论 -
正则表达式(re模块)超详细讲解
本文介绍了Python中re模块的核心功能与正则表达式应用技巧。教程从基础匹配(re.search)、批量提取(re.findall)到高级功能分组匹配、命名分组、懒惰匹配等,系统讲解了12个实用知识点。重点解析了贪婪匹配与懒惰匹配的区别,通过HTML标签提取等案例展示了非贪婪匹配(*?)的实际应用。文章还提供了正则表达式功能对照表,涵盖数字匹配、字符集、边界控制等常见场景,并推荐使用re.compile()优化性能。最后强调正则表达式在数据处理、日志分析等领域的重要性,建议通过实践掌握这一文本处理利器。原创 2025-08-04 21:06:50 · 863 阅读 · 0 评论 -
python aiohttp使用cookie
本文介绍了在aiohttp中使用Cookie的三种方法:1)通过cookies参数直接设置;2)自动接收并复用服务器返回的Cookie;3)手动设置请求头(不推荐)。文章详细讲解了如何从浏览器导出Cookie并转换为Python字典,以及如何实现模拟登录后自动携带Cookie的功能。此外还提供了Cookie持久化存储的进阶方法,并强调异步爬虫需要注意控制并发量。aiohttp的ClientSession默认启用cookie_jar,可自动管理Cookie,建议使用推荐的第一种方式设置Cookie。原创 2025-08-03 12:59:48 · 708 阅读 · 0 评论 -
[特殊字符]️ 网络爬虫基础知识全面介绍(涵盖10+方面)
爬虫基础介绍原创 2025-07-31 09:47:25 · 733 阅读 · 0 评论 -
使用 Playwright 自动化采集京东联盟高佣商品信息
使用 Playwright 自动化采集京东联盟高佣商品信息原创 2025-07-28 21:20:40 · 760 阅读 · 0 评论 -
小红书用户信息收集:使用 Python + Aiohttp 异步提取小红书号与 IP 属地
小红书用户信息收集:使用 Python + Aiohttp 异步提取小红书号与 IP 属地原创 2025-07-27 09:40:30 · 1100 阅读 · 0 评论 -
猫眼电影字体文件实时获取 .woff
解析猫眼票房页面中的字体反爬链接 —— Python 实战讲解在爬取猫眼票房数据时,我们常会遇到「数字乱码」的问题,这是因为页面使用了动态字体加密(woff字体)来对数字进行混淆。为了破解这些反爬手段,我们首先需要获取页面中引用的字体文件链接(.woff),这篇文章将带你逐步实现这个目标。原创 2025-07-25 09:27:39 · 1012 阅读 · 0 评论
分享