
爬虫和逆向教程
文章平均质量分 94
本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。提供全面而深入的爬虫和逆向技术指导,从入门到精通,从基础理论到案例实战,逐步成为爬虫领域的佼佼者。
订阅后可以联系博主加微信群,有任何问题都可以群里沟通~
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
数据知道
IT技术博主,博主会持续更新专栏文章,欢迎关注和订阅文章博客,欢迎私信和博主交流技术,欢迎关注公众号:数据知道的成长之路。如有需要请站内私信或者联系VX名片(ID:data_know)
展开
-
爬虫和逆向教程-专栏介绍和目录
本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。为你提供全面而深入的爬虫和逆向技术指导,从入门到精通,从基础理论到高级实战,助你在数据的海洋中畅游,挖掘出有价值的信息。通过本专栏的学习,你将具备独立开发和优化爬虫程序的能力,及逆向分析能力和项目开发能力,成为爬虫领域的佼佼者。原创 2025-02-28 20:26:59 · 4716 阅读 · 0 评论 -
如何下载主流网站的视频和音频?(支持100+网站视频下载)
you-get 库的完整使用大全,涵盖安装、命令行操作、Python API、高级技巧及常见问题解决方案,适用于主流视频/音频/图片下载场景。原创 2025-03-29 18:21:07 · 605 阅读 · 0 评论 -
逆向中如何判断JSVMP,及如何解决?(包括实战案例)
是一种高级的 JavaScript 代码保护技术,通过将原始代码转换为自定义字节码并在虚拟环境中执行来实现混淆。在逆向工程中,判断目标代码是否采用JSVMP并找到解决方案,需要系统化的分析思路和技术手段。原创 2025-03-29 11:24:03 · 793 阅读 · 0 评论 -
Python爬虫:Feapder 的详细使用和案例
Feapder 是一个功能强大的 Python 爬虫框架,支持分布式、批次采集、断点续爬等功能。下面将详细介绍 Feapder 的使用方法,并提供多个实用案例。原创 2025-03-26 13:51:49 · 791 阅读 · 0 评论 -
Python爬虫:Asyncpy 的详细使用和案例(高性能异步爬虫框架)
Asyncpy 是一个基于 Python 异步编程的爬虫框架,它利用 asyncio 和 aiohttp 等库来实现高性能的网络爬取。下面将详细介绍如何使用 Asyncpy 来构建高效的爬虫。原创 2025-03-26 09:48:30 · 889 阅读 · 0 评论 -
爬虫:Requests-HTML的详细使用
requests-html 是一个基于 requests 和 pyquery 的 Python 库,用于抓取和解析 HTML 内容。它结合了 requests 的简单易用性和 pyquery 的强大 HTML 解析能力,同时支持 JavaScript 渲染、CSS 选择器和 XPath 查询等功能。以下是 requests-html 的详细使用。原创 2025-03-25 10:13:57 · 654 阅读 · 1 评论 -
爬虫:scrapy面试题大全(60个scrapy经典面试题和详解)
Scrapy是一个用于Python的开源网络爬虫框架,用于快速、高效地抓取网站数据并提取结构化信息。它提供了强大的工具和组件,如请求调度、数据管道、中间件等,可以让开发者专注于数据提取和处理的逻辑。原创 2025-03-23 13:18:33 · 724 阅读 · 0 评论 -
AI爬虫 :Firecrawl的安装和详细使用案例(将整个网站转化为LLM适用的markdown或结构化数据)
Firecrawl 是一个轻量级、高效的网页抓取工具,专注于从网页中提取结构化数据。它支持静态网页和动态内容(如 JavaScript 渲染的页面),并提供简单易用的 API 或命令行工具。原创 2025-03-18 19:44:51 · 1278 阅读 · 0 评论 -
AI爬虫:一文讲通AI爬虫技术和原理,及34个AI爬虫工具推荐
AI 爬虫 是一种结合了传统网络爬虫技术和人工智能(AI)技术的工具,能够更智能、高效地从网页中提取和处理数据。与传统爬虫相比,AI 爬虫能够更好地处理动态内容、复杂网页结构以及非结构化数据,同时具备数据清洗、分类、情感分析等高级功能。原创 2025-03-18 19:34:37 · 1237 阅读 · 0 评论 -
AI爬虫 :Crawl4AI的安装和详细使用案例(开源 LLM 友好型网络爬虫)
Crawl4AI是排名第一的热门 GitHub 存储库,由活跃的社区积极维护。它提供速度极快、适用于 AI 的网络爬虫,专为大型语言模型、AI 代理和数据管道量身定制。Crawl4AI 完全开源、灵活且专为实时性能而构建,可为开发人员提供无与伦比的速度、精度和部署便利性。恭喜!执行了基本抓取并打印了 Markdown。使用带有 markdown 生成器的 内容过滤器。通过CSS或LLM策略提取 JSON。使用 JavaScript 触发器处理动态页面。安装。原创 2025-03-18 13:37:56 · 1430 阅读 · 0 评论 -
爬虫逆向:详细讲述iOS底层原理及机制
iOS 的底层原理和机制涉及多个层次和组件,从 Darwin 内核到 Cocoa Touch 层,每个部分都发挥着重要作用。通过理解这些原理,开发者可以更好地优化应用性能、解决复杂问题,并深入掌握 iOS 系统的运行机制。原创 2025-03-18 07:48:56 · 1176 阅读 · 0 评论 -
爬虫逆向:详细讲述Android底层原理及机制
Android底层原理及机制涵盖了从Linux内核到应用框架的多个层次,每个层次都承担着特定的职责和功能。通过理解这些底层机制,开发者可以更好地优化应用性能、提升用户体验,并确保应用的安全性。此外,深入掌握Android的底层原理也为系统定制、性能调优和故障排查提供了坚实的基础。原创 2025-03-17 20:09:34 · 1174 阅读 · 0 评论 -
爬虫逆向:逆向中用到汇编语言详细总结
在爬虫逆向工程中,理解和掌握汇编语言是至关重要的。逆向工程通常涉及对目标程序的二进制代码进行分析和理解,以揭示其内部工作原理、数据结构和算法。汇编语言作为低级编程语言,直接对应于机器指令,能够帮助逆向工程师深入理解程序的执行流程和逻辑。本文将详细总结在爬虫逆向过程中常用的汇编语言知识,包括基本概念、常用指令、寄存器、调用约定以及分析工具等。原创 2025-03-17 19:12:56 · 1396 阅读 · 0 评论 -
iOS移动端安全相关知识汇总
iOS 设备的安全性得益于 Apple 的严格控制和封闭生态系统,但用户仍需保持警惕,采取有效的防护措施。通过了解常见的安全威胁、遵循最佳实践以及使用安全工具,可以显著提高 iOS 设备的安全性。原创 2025-03-17 08:17:24 · 648 阅读 · 0 评论 -
Android手机中各类安全相关知识总结
Android 设备的安全性需要用户、开发者和厂商共同努力。通过了解常见的安全威胁、采取有效的防护措施以及遵循最佳实践,可以显著提高 Android 设备的安全性。Android移动端的安全涉及系统架构、权限管理、数据加密、网络安全、应用开发、常见威胁防护及设备设置等多个方面。通过了解并应用上述安全知识,用户和开发者可以有效提升Android设备的安全性,保护个人隐私和数据安全。随着技术的不断发展,安全威胁也在不断演变,保持对最新安全动态的关注和持续的安全防护措施是确保Android设备安全的关键。原创 2025-03-16 10:31:51 · 925 阅读 · 1 评论 -
Python 爬虫:一文掌握 SVG 映射反爬虫
SVG用于在网页上显示二维图形。与传统的位图图像(如JPEG、PNG)不同,SVG图像可以在不失真的情况下缩放,并且支持丰富的交互性和动画效果。提取字体文件:从网页中下载字体文件(通常是 WOFF 或 TTF 格式)。解析字体映射:使用工具(如 fontTools)解析字体文件,获取字符映射关系。还原原始数据:根据映射关系还原 SVG 中的文本。# 加载字体文件# 获取字符映射关系# 示例:根据映射关系还原字符svg_text = "" # SVG 中的字符。原创 2025-03-15 18:24:00 · 1129 阅读 · 2 评论 -
爬虫:一文掌握 js2py 的详细使用(Python 环境中执行 JavaScript 代码)
js2py 是一个用于在 Python 环境中执行 JavaScript 代码的库。它允许你在不依赖浏览器的情况下,直接在 Python 中运行 JavaScript 脚本。这在处理需要执行 JavaScript 的网页爬虫时特别有用,尤其是当目标网站使用了大量的客户端 JavaScript 来动态加载内容时。js2py 是一个强大的工具,可以在 Python 环境中执行 JavaScript 代码,方便进行网页爬虫、自动化测试等任务。原创 2025-03-15 17:46:27 · 804 阅读 · 0 评论 -
爬虫逆向:一文掌握逆向中的加密与解密(代码可直接拿来用)
在现代网络爬虫开发中,目标网站为了防止数据被轻易抓取,通常会对传输的数据进行加密处理。这些加密手段包括但不限于 Base64 编码、对称加密(如 AES)、非对称加密(如 RSA)、自定义混淆算法等。理解和破解这些加密解密算法是爬虫逆向工程中的重要环节。有些网站使用自定义的加密算法,需要通过逆向分析找到加密逻辑。案例:逆向自定义加密使用浏览器开发者工具(F12)调试 JavaScript 代码。找到加密函数,分析其逻辑。使用 Python 实现相同的逻辑。# 示例:自定义 XOR 加密。原创 2025-03-14 12:27:36 · 2626 阅读 · 0 评论 -
爬虫逆向:Hook 技术原理与实战
Hook 技术(钩子技术)是一种通过拦截和修改程序执行流程的技术手段。它允许开发者在目标程序的特定位置插入自定义代码,以改变程序的默认行为或获取运行时信息。Hook 技术广泛应用于调试、逆向工程、性能分析、安全防护等领域。Hook 技术在爬虫逆向中非常有用,能够有效获取和修改目标程序的数据。通过合理使用 Hook 工具和技术,可以显著提升爬虫的效率和成功率。但使用时需注意法律和道德问题,确保行为合规。原创 2025-03-14 09:26:36 · 2142 阅读 · 0 评论 -
Hook 用法详解(备忘清单)
hook用法备忘原创 2025-03-14 09:12:29 · 720 阅读 · 0 评论 -
爬虫逆向:Unicorn 详细使用指南
Unicorn 是一个轻量级的 CPU 模拟器框架,支持多种架构(如 ARM、x86、MIPS 等)。它常用于逆向工程、漏洞分析和恶意软件分析。以下是 Unicorn 的详细使用指南。Unicorn 是一个强大的 CPU 模拟器框架,适合用于逆向工程和漏洞分析。通过掌握其基本和高级功能,可以高效地模拟和分析二进制代码。原创 2025-03-13 20:13:17 · 2034 阅读 · 0 评论 -
【爬虫逆向】一文掌握混淆工具Ollvm(超级详细!)
Ollvm 是一个强大的代码混淆工具,通过多种混淆技术增加逆向工程的难度。多种混淆技术:控制流扁平化、指令替换、虚假控制流、字符串加密。灵活配置:支持调整混淆强度。跨平台支持:适用于 Windows、Linux 和 macOS。在逆向分析中,Ollvm 的混淆技术会显著增加分析难度,但通过结合静态和动态分析工具,仍然可以逐步还原代码逻辑。原创 2025-03-13 08:59:40 · 1399 阅读 · 0 评论 -
Mitmproxy 指令备忘清单
是一个免费开源的交互式 HTTPS 代理。这里是 mitmproxy 的快速参考备忘单。mitmproxy 有一组方便的流选择器,可以在当前视图上操作。正则表达式是 Python 风格的,可以指定为带引号的字符串。从代理发送回复而不向远程服务器发送任何数据。包含“google.com”的网址。正文中包含字符串“test”的请求。为每个响应添加一个 HTTP 标头。将流程导出到系统剪贴板。将流程导出到系统剪贴板。原创 2025-03-12 19:41:02 · 826 阅读 · 0 评论 -
爬虫基础:HTTP 状态码大全(备忘清单)
请求成功,服务器正在返回请求所指定部分的数据。用于响应标头中指定了数据区间的请求。这是对 If-Modified-Since 或 If-None-Match 标头的响应代码,其中 URL 自指定日期以来未修改。服务器不会接受请求,因为 url 太长。永久性否定的完成答复,该命令不成功,错误是永久性的。服务器只收到了请求的一部分,但只要没有被拒绝,客户端就应该继续请求。请求的 URL 必须通过 Location 标头中提到的代理访问。请求成功,但负载经过了第三方服务器的修改,而非原始负载。原创 2025-03-12 17:39:54 · 1061 阅读 · 0 评论 -
【反爬】一文掌握浏览器指纹原理及实践(超级详细!)
浏览器指纹是一种强大的用户标识技术,广泛应用于反爬虫和用户追踪。通过了解其原理和实现方式,可以更好地应对反爬虫机制。在爬虫开发中,合理使用动态指纹、代理和无头浏览器等技术,可以有效规避指纹检测。原创 2025-03-11 20:38:59 · 1637 阅读 · 0 评论 -
使用 Tesseract 进行 OCR 识别的详细指南
Tesseract 是由 Google 维护的一个开源 OCR 引擎,最初由 HP 开发。它支持多种操作系统,并且可以识别超过 100 种语言。Tesseract 的优势在于其高准确性和灵活性,适用于各种 OCR 应用场景。通过本文的介绍,相信你对如何在 Python 中使用 Tesseract 进行 OCR 有了全面的了解。Tesseract 结合 Python 的强大功能,可以应用于各种自动化文本识别场景。建议结合实际需求,深入学习图像预处理和 Tesseract 的高级配置,以充分发挥其潜力。原创 2025-03-11 20:28:57 · 1033 阅读 · 0 评论 -
python爬虫:Android自动化工具Auto.js的详细使用
模拟点击、滑动、按键等操作。读取和操作屏幕内容(如文字识别、图像匹配)。支持定时任务和脚本录制。可以通过 JavaScript 编写脚本。将重复使用的代码封装成函数,提高脚本的可维护性和可读性。${`);!`);通过 Python 与 Auto.js 结合,可以实现强大的 Android 自动化功能。Python 负责逻辑控制和数据处理,Auto.js 负责设备操作,两者相辅相成。无论是自动化测试、数据采集还是定时任务,这种组合都能提供高效的解决方案。原创 2025-03-10 21:59:21 · 2028 阅读 · 0 评论 -
python爬虫:自动化工具CEF Python的详细使用
import sys# 在这里可以更新窗口标题# 绑定事件处理器main()可以注册自定义协议处理器,以处理特定的 URL 协议(如 myproto://)。pass# 处理请求逻辑"))# 注册自定义协议main()CEF Python 是一个功能强大的工具,适用于需要在 Python 应用程序中嵌入浏览器功能的场景。通过上述示例,你可以快速上手并实现浏览器窗口、事件处理、JavaScript 与 Python 交互等功能。原创 2025-03-10 21:46:47 · 1193 阅读 · 0 评论 -
python爬虫:采集求职者简历信息并进行人才分析
通过 Python 爬虫抓取求职者简历信息并进行人才分析,可以帮助企业快速筛选和匹配人才。但在实施过程中,必须严格遵守法律法规,确保数据来源合法合规。如果需要更复杂的分析,可以结合自然语言处理(NLP)和机器学习技术,进一步挖掘数据价值。原创 2025-03-07 20:15:20 · 1364 阅读 · 0 评论 -
用python如何高并发写入数据到mysql?(脚本已封装好,直接用就行)
要使用 aiomysql,首先需要确保你的 Python 版本是 3.5 或更高版本。原创 2025-03-07 16:10:24 · 1333 阅读 · 0 评论 -
爬虫逆向:脱壳工具 dumpDex 的详细使用
dumpDex 是一款用于 Android 应用脱壳的工具,主要功能是从运行中的 Android 应用进程里提取 DEX 文件,帮助逆向工程师分析加壳应用的内部逻辑。需要xposed支持。可以用来脱掉当前市场上大部分的壳。(360加固、腾讯乐固、梆梆加固、百度加固均可脱壳)。支持大多数xposed环境的手机,暂不支持模拟器。,可以直接下载release的apk,也可以自行编译打包成apk安装到手机DumpDex 是一款强大的 Android 应用脱壳工具,适合用于爬虫逆向工程。原创 2025-03-06 17:52:52 · 2062 阅读 · 0 评论 -
爬虫逆向:脱壳工具 frida-dexdump 的使用详解
frida-dexdump 是一款基于 Frida 框架开发的强大工具,代码开源且操作简单。主要用于在运行时从 Android 应用中提取 DEX 文件(Dalvik Executable,安卓系统所使用的可执行文件格式),对于处理动态加载、加固等有壳保护的 Android 应用脱壳非常有效。在内存中转存dex文件,能脱大部分的壳。Frida-dexdump 通过 Frida 的 Hook 功能,动态脱壳 Android 应用的 Dex 文件。原创 2025-03-06 17:37:08 · 2335 阅读 · 0 评论 -
爬虫逆向:脱壳工具ZjDroid的使用详解
ZjDroid 是一款针对 Android 平台的动态脱壳工具,它基于 Frida 框架实现,能够辅助逆向工程师对采用了动态加载壳、加固等保护技术的 Android 应用进行脱壳操作。ZjDroid是基于Xposed Framewrok的动态逆向分析模块,可以完美解决二代加固。逆向分析者可以通过ZjDroid完成以下工作:1、DEX文件的内存dump2、基于Dalvik关键指针的内存BackSmali,有效破解主流加固方案3、敏感API的动态监控4、指定内存区域数据dump。原创 2025-03-06 17:19:25 · 1767 阅读 · 0 评论 -
爬虫逆向:脱壳工具Youpk的使用详解
Youpk基于ART的主动调用的脱壳机,主要针对dex整体加固和各式各样的dex抽取加固。目前 Youpk 只支持 pixel 1代。所以必须需要 pixel 1代手机,而且需要刷入对应的系统。Youpk可以处理大部分的加固,一些企业版的加固也能处理,脱壳效果非常好。功能:Youpk 可以通过 Hook Android 系统的类加载机制,动态脱壳加固应用的 Dex 文件。Youpk 是一款强大的 Android 应用脱壳工具,适合用于爬虫逆向工程。原创 2025-03-06 17:09:51 · 1765 阅读 · 0 评论 -
爬虫逆向:脱壳工具反射大师的使用详解
反射大师:一个脱壳插件工具,需要在 Xposed 环境中使用,支持市面上大多数加密壳。反射大师简单容易使用,能脱掉大多数壳,很值得使用功能:反射大师可以通过 Hook Android 系统的类加载机制,动态脱壳加固应用的 Dex 文件。反射大师是一款强大的 Android 应用脱壳工具,适合用于爬虫逆向工程。通过反射大师,可以轻松脱壳加固应用的 Dex 文件,并进一步分析其代码逻辑。结合 JADX、Apktool 等工具,可以深入分析目标应用的加密算法、API 接口和反爬虫机制。原创 2025-03-06 16:57:48 · 1755 阅读 · 0 评论 -
爬虫逆向:脱壳工具BlackDex的详细使用
BlackDex是一款针对安卓应用(APK文件)进行脱壳的工具 ,主要用于处理采用了动态加载、代码混淆等保护机制的应用,帮助逆向分析人员获取应用的真实代码逻辑。BlackDex运行在Android手机上,支持5.0~12,无需依赖任何环境任何手机都可以使用,包括模拟器。只需几秒,即可对已安装包括未安装的APK进行脱壳。BlackDex 可以在无需 Root 的情况下,直接脱壳 Android 应用的 Dex 文件。支持场景:脱壳加固应用的 Dex 文件。提取应用的代码逻辑,用于逆向分析。优点。原创 2025-03-06 13:00:16 · 1809 阅读 · 0 评论 -
爬虫面试:关于爬虫破解验证码的13个经典面试题
解释:验证码是一种用于区分人类用户和自动化程序(如爬虫)的技术,通常通过显示图形、文字或音频等方式,要求用户完成特定任务(如识别扭曲的字母、点击特定区域等)。作用:防止恶意爬虫滥用网站资源、进行批量注册、登录破解等行为,保护网站的安全性和数据的完整性。原创 2025-03-05 20:01:07 · 3344 阅读 · 0 评论 -
Python爬虫:基于Bloom Filter进行大规模去重详解
布隆过滤器是一种概率型数据结构,用于判断一个元素是否存在于一个集合中。空间效率高:占用内存远小于传统的数据结构(如哈希表)。查询速度快:时间复杂度为 O(k),其中 k 是哈希函数的数量。允许误判:可能会将不存在的元素误判为存在(False Positive),但不会将存在的元素误判为不存在(False Negative)。布隆过滤器是一种高效的去重工具,适合大规模爬虫任务。在 Python 中,可以使用 pybloom_live 库快速实现布隆过滤器。原创 2025-03-05 19:30:51 · 1731 阅读 · 0 评论 -
爬虫去重:数据采集时如何进行去重,及去重优化策略
小规模数据:可以使用基于集合或文件存储的去重方法。大规模数据:推荐使用布隆过滤器、数据库或 Redis 进行去重。优化策略:URL 规范化、分片去重和定期清理可以进一步提升去重效率。通过合理的去重策略,可以显著提高爬虫的效率和稳定性,避免资源浪费和数据冗余。原创 2025-03-05 19:25:12 · 2341 阅读 · 0 评论 -
爬虫:从Chrome浏览器进行抓包详解
Chrome开发者工具(DevTools)是内置于Google Chrome浏览器中的一套网页调试和分析工具。它提供了丰富的功能,包括元素检查、控制台输出、性能分析、网络请求捕获等。对于爬虫开发者来说,Network面板是最为重要的部分,用于捕获和分析网络请求。网络抓包:捕获和分析 HTTP/HTTPS 请求。元素检查:查看和修改网页的 HTML 和 CSS。控制台:运行 JavaScript 代码并查看日志。性能分析:分析网页的加载性能。原创 2025-03-05 18:48:14 · 1596 阅读 · 0 评论