
爬虫进阶
文章平均质量分 86
高阶爬虫和app爬虫相关
周小董
专注于数据采集,数据治理及数据架构的研究,热爱分享一些经验,欢迎朋友来探讨交流。 附言:文章仅用于个人学习,如有侵权,请联系我删除,谢谢!
展开
-
[1296]selenium配置带用户名和密码的隧道代理
参数不支持设置用户名和密码认证。一种变通的方式就是采用IP地址认证,但在国内网络环境下,大多数用户都采用ADSL形式网络接入,IP是变化的,也无法采用IP地址绑定认证。因此迫切需要找到一种让Chrome自动实现HTTP代理用户名密码认证的方案。参考:https://blog.youkuaiyun.com/crayonjingjing/article/details/137596882。鲲之鹏的技术人员在此思路的基础上用Python实现了自动化的Chrome插件创建过程,即根据指定的代理。默认情况下,Chrome的。原创 2024-08-06 22:00:00 · 1391 阅读 · 0 评论 -
[1285]AST入门与实战:基于babel库的js反混淆模板的实践
我们已经拿到了最基础的使用模板以后,此时我们的ast反混淆已经成了一个填空题。我们只需要把我们写好的网站反混淆插件填入即可,非常的简单。Babel 是一个 JavaScript 编译器,可以将 ES6+ 代码转换为向后兼容的 JavaScript 版本,但它不包含反混淆的功能。好了,目前我们所有的工作已经准备完成,我们就开始看如何还原代码了。我们把函数调用简单的给替换了一下,但是其最终的效果并不完美。我们可以看到,目标函数的body的第一行,都是。的索引是从0开始的,它是不可能为负数的。转载 2024-05-31 21:30:00 · 604 阅读 · 0 评论 -
[428]微博宫格验证码的识别
本节我们介绍了一种常用的模板匹配识别图片的方式来识别验证码,并模拟了鼠标拖拽动作来实现验证码的识别。如果遇到类似的验证码,可以采用同样的思路进行识别。来源:http://cuiqingcai.com/7041.html。转载 2018-11-13 18:46:49 · 1182 阅读 · 0 评论 -
[639]极验验证码破解分析&极验滑动验证码的识别
本节我们分析并实现了极验验证码的识别,其关键在于识别的思路,如怎样识别缺口位置,怎样生成运动轨迹等,学会了这些思路后以后我们再遇到类似原理的验证码同样可以完成识别过程。最后,放上代码,有需要的小伙伴可以自取,在使用时请注意,需要更改自己的账号密码,如果没有,则需要注册。'''极验验证码特点:首先点击按钮进行智能验证,如果验证不通过,则会弹出滑动验证的窗口,拖动滑块拼合图像进行验证,之后生成三个加密参数,通过表单提交到后台,后台还会进行一次验证。识别验证需要三步:1.模拟点击验证按钮。原创 2019-07-18 19:12:47 · 6872 阅读 · 6 评论 -
[465]深度学习识别滑动验证码缺口
本节主要介绍了训练深度学习模型来识别滑动验证码缺口的整体流程,最终我们成功实现了模型训练过程,并得到了一个深度学习模型文件。利用这个模型,我们可以输入一张滑动验证码,模型便会预测出其中的缺口的位置,包括偏移量、宽度等,最后可以通过缺口的信息绘制出对应的位置。转载 2018-12-27 18:29:22 · 1950 阅读 · 1 评论 -
[485]基于Python语言的tensorflow的‘端到端’的字符型验证码识别
验证码(CAPTCHA)的诞生本身是为了自动区分自然人和机器人的一套公开方法, 但是近几年的人工智能技术的发展,传统的字符验证已经形同虚设。所以,大家一方面研究和学习此代码时,另外一方面也要警惕自己的互联网系统的web安全问题。Keywords: 人工智能,Python,字符验证码,CAPTCHA,识别,tensorflow,CNN,深度学习。转载 2019-01-03 18:25:44 · 779 阅读 · 1 评论 -
[467]利用Python的图像处理模块pillow和OCR模块pytesseract识别图形验证码
本文将具体介绍如何利用Python的图像处理模块pillow和OCR模块pytesseract来识别上述验证码(数字加字母)。参考:https://blog.youkuaiyun.com/jclian91/article/details/80640088。原创 2018-12-28 18:40:18 · 600 阅读 · 2 评论 -
[91]OpenCV 图像匹配识别滑动验证码缺口
本节我们介绍了利用 OpenCV 来识别滑动验证码缺口的方法,其中涉及到了一些关键的图像处理和识别技术,如高斯模糊、边缘检测、轮廓提取等算法。了解了基本的图像识别技术后,我们可以举一反三,将其应用到其他类型的工作上,也会很有帮助。,注意这里是cv 分支。来源:https://cuiqingcai.com/202292.html。转载 2018-06-19 12:43:05 · 6390 阅读 · 1 评论 -
[90]OCR识别验证码模拟登录知乎(pytesseract)
验证码图片会下载至项目所在的文件夹,打开图片,输入验证码即可。原创 2018-06-19 12:41:46 · 459 阅读 · 1 评论 -
[56]Python OCR识别图形验证码(pytesser、tesserocr)
本节我们了解了利用 Tesserocr 识别验证码的过程并将其应用于实战案例中实现了模拟登录。为了提高 Tesserocr 的识别准确率,我们可以对验证码图像进行预处理去除一些干扰,识别准确率会大大提高。但总归来说 Tesserocr 识别验证码的准确率并不是很高。原创 2018-06-12 08:58:14 · 3015 阅读 · 4 评论 -
[89]Tesserocr 的安装
是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。我们调用了 tesseract 命令,第一个参数为图片名称,第二个参数 result 为结果保存的目标文件名称,-l 指定使用的语言包,在此使用 eng 英文,然后再用 cat 命令将结果输出。对于 Linux 来说,不同系统已经有了不同的发行包了,它可能叫做 tesseract-ocr 或者 tesseract,直接用对应的命令安装即可。,所以在安装 Tesserocr 之前我们需要先安装 Tesseract,本节我们来了解下它们的安装方式。转载 2018-06-19 12:40:48 · 563 阅读 · 1 评论 -
[1198]ApkScan-PKID 查壳工具
1、壳的功能:壳最本质的功能就是实现加载器,壳是指在一个程序的外面再包裹上另外一段代码,保护里面的代码不被非法修改或反编译的程序。原创 2023-05-20 09:15:00 · 3882 阅读 · 0 评论 -
[1197]脱壳工具dumpDex、frida_dump、BlackDex
dumpDex: 一个开源的 Android 脱壳插件工具,需要xposed支持。可以用来脱掉当前市场上大部分的壳。(360加固、腾讯乐固、梆梆加固、百度加固均可脱壳)支持大多数xposed环境的手机,暂不支持模拟器github地址:https://github.com/WrBug/dumpDex,可以直接下载release的apk,也可以自行编译打包成apk安装到手机。原创 2023-05-20 09:00:00 · 3325 阅读 · 0 评论 -
[1196]Android逆向工具【反射大师】脱壳实战
脱壳只是第一步,后面还有修改、调试、回编译,工作量都很大,以上就是脱壳环境搭建与脱某60壳实战的主要内容。壳确实脱了,但是没有修复步骤,比如修改Apk中的xml、程序入口等操作。这主要是由于不同的壳,修复步骤不同。分析代码这个步骤,完全是考验你的 Java 基本功 + 耐心,二者缺一不可。不过不要退缩,我们只要遵循一些技巧,就可以大幅减少工作量。由于分析过程比较繁琐,这里就不结合具体代码了,只做一些理论总结:1、从目标 API 开始入手,跟踪执行流程。原创 2023-05-19 20:30:00 · 5570 阅读 · 3 评论 -
[1195]Xposed+FDex2 app脱壳
但是这种把java拿过来直接python调用的方法,不是任何时候都适用的,因为有时候,这段java代码可能是有很多的依赖的包,你运行的时候,就会缺少很多的包,这样就很麻烦,所以用python调用java的情况,这段代码最好不要有太多的依赖,有的app,接口调用的时候,有一个参数sign,要携带上请求接口才行,这个是变动的,你不知道,所以就不能调用通接口,可以通过重放来确定这个参数是不是动态的,下一步就是找到这个signature,然后看他怎么加密的,然后携带上这个signature,才可以请求这个api,原创 2023-05-19 20:30:00 · 4084 阅读 · 2 评论 -
[1108]小米5S TWRP刷面具、EdXposed
文章目录一、目的二、操作(简)三、操作(繁)3.1 解锁OEM3.2 解锁BL3.3 刷入开发版ROM3.3.1 线刷官方ROM3.3.2 卡刷官方ROM3.4 线刷TWRP和Magisk3.4.1 TWRP介绍3.4.2 为何刷入TWRP3.4.3 准备环境包3.4.3 TWRP安装&刷入Magisk框架3.5 附录下载一、目的Android版本迭代日新月异,Xposed环境过于久远,在Android高版本不支持,在某些金融APP上兼容性略显吃力,EdXposed成为后起之秀,为了解决某些刚需转载 2022-03-13 14:53:23 · 3877 阅读 · 1 评论 -
[1107]EdXposed框架
EdXposed 是一个 Magisk 和 Riru 模块,它为运行高版本 Android ART 的设备上提供原生 Xposed 框架。EdXposed 框架官网:https://edxp.meowcat.org/Android 7 (Nougat) 或更低版, 请用原版Xposed框架.Android 11(EdXposed Framework v0.5.2.1 版开始)原创 2022-03-13 14:50:22 · 3994 阅读 · 0 评论 -
[1095]Appium使用wifi连接多台手机
之前有想过python代码执行appium命令的形式去自动启动appium服务,但通过npm或cnpm安装appium命令行都有报错,只能手动启动。很简单,打开两个appium客户端,一个设置端口为4723,一个4726,启动即可。如果没有出现设备号和设备信息说明没有连接成功,也就是说adb检测不到设备,这个时候检查手机驱动是否安装。此时,我们再次查看一下连接的设备,发现已经用有线和无线的方式都连接上了,你可以拔掉usb进行操作了。描述:5555是默认端口号,你也可以用其他端口号,-s 表示指定此设备。原创 2022-01-14 21:37:53 · 4504 阅读 · 2 评论 -
[1091]Frida的环境搭建及入门实战
Frida是一款基于python + javascript的hook框架,可运行在android、ios、linux、windows等各平台,主要使用动态二进制插桩技术;由于是基于脚本(javascript)的交互,因此相比xposed和substrace cydia更加便捷官网地址:https://frida.re/github地址:https://github.com/frida/frida。原创 2021-12-23 23:12:20 · 5159 阅读 · 0 评论 -
[1035]xposed框架未安装xposed模块未激活怎么办(Could not load available ZIP files.Pull down to try again)
文章目录xposed框架未安装xposed模块未激活Could not load available ZIP files.Pull down to try again前言步骤说明注意点雷电安卓模拟器解决Could not load available ZIP files.Pull down to try again问题下载xposed-x86_64.zip下载script.sh报错处理安装成功xposed框架未安装xposed模块未激活最新在学习APP原生开发用到xposed框架神器,xposed是An原创 2021-07-30 20:16:29 · 59089 阅读 · 14 评论 -
[1034]安装Xposed框架+JustTrustMe
突破SSL pinning的方法最简单的就是使用Xposed+JustTrustMeXposedInstaller(xposed框架)是一款可以在不修改APK的情况下影响程序运行(修改系统)的框架服务,基于它可以制作出许多功能强大的模块,且在功能不冲突的情况下同时运作。但是这里注意给手机安装Xposed(手机需要root)很可能便砖头,一定要用安卓模拟器我也试过好多模拟器都不怎么样,最后还是用的逍遥模拟器,安装之后默认的是安卓7,这个安卓版本跟Xposed的兼容性还不好,最好是点击多开助手–>原创 2021-07-30 20:15:37 · 3255 阅读 · 0 评论 -
[976]微信小程序的抓取技巧
今天聊下微信小程序的抓取,其实小程序的抓取不难,主要解决抓包和如何调试小程序这两个问题。如果你运用chrome调试已经比较熟练了的话,就手到擒来。先来说小程序抓包问题不用破解的办法如何抓到小程序的包?破解是个费劲的事,一不小心微信账号还可能被封。小程序抓不到包通常就是你手机的安卓系统版本太高和微信APP的版本太高了。版本越高,通常它的安全性就越好。换用安卓系统是4.4的手机和微信APP版本在6.7左右的版本。使用Fiddler或Charles抓包妥妥的。如果你实在没有低安卓系统版本手机和低版本微信,原创 2021-05-13 23:10:40 · 4351 阅读 · 2 评论 -
[966]无需ROOT就能让你用上Xposed框架
如果你曾经了解过搞机的相关内容,想来应该知道 Xposed 框架是怎样的一种存在吧,不清楚的话也无妨,我们一起看一下。Xposed 框架是 Android 系统上的一款神器,它对于任何一个喜欢鼓捣手机的抖 M 来说都是不可或缺的,通过在这个框架上安装特定的某些模块,普通用户都可以很自由很 easy 的 DIY 自己的手机系统,实现许多看起来很复杂很高级的功能。明明这么好用的东西,却由于在之前的使用门槛较高(需要解锁、ROOT 等),导致很多人都难以体验,但是在研究过 Xposed 的工作原理之后,.转载 2021-05-07 23:06:35 · 11269 阅读 · 0 评论 -
[963]Android app代理软件
文章目录VNET——最好用的Android抓包神器proxydroid软件特色proxydroid简单的设置方法VNET——最好用的Android抓包神器VNET是Android平台下功能最强大的网络抓包工具,支持HTTP&HTTPS,TCP&UDP,IPv6&IPv4,多终端显示,功能十分的强大。截图快速上手1、安装VNET,可以从VNET官网或者Google Play 下载最新版本VNET官网:https://www.vnet-tech.com/GoogleP原创 2021-04-27 22:06:28 · 15810 阅读 · 2 评论 -
[959]JS逆向技巧分享
以上为我做js逆向分析时用到的手段,如有不足之处或更多技巧,欢迎指教补充。愿本文的分享对您之后分析js有所帮助。原创 2021-04-17 23:23:36 · 753 阅读 · 0 评论 -
[954]gerapy配合scrapyd监控爬虫
文章目录简介与安装安装:使用初始化项目初始化数据库运行gerapy服务访问gerapy界面gerapy管理界面的使用部署主机Gerapy 与 scrapyd 有什么关联吗?部署项目github:https://github.com/Gerapy/Gerapy简介与安装Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、原创 2021-03-14 22:57:34 · 556 阅读 · 1 评论 -
[851]反反爬--如何巧过CloudFlare 5秒盾
巧破 Cloudflare 5秒盾相信下面这个界面大家都不会陌生。【图1-1】当我们第一次访问使用 CloudFlare 加速的网站时,网站就会出现让我们等待 5 秒种的提示,当我们需要的通过爬虫爬取这类网站的时候,应该如何爬取呢?分析请求首先我们需要分析在这个等待的时间里浏览器做了哪些操作。通过抓包,我们可以看到在等待的过程中,浏览器做了下面的三次请求【图1-2】- 【图1-4】:【图1-2】请求 1 写入 cookie 字段 __cfduid【图1-3】请求 2 带有疑似加密转载 2020-07-20 20:14:56 · 7272 阅读 · 3 评论 -
[817]JS加密--基础总结
常用的加密有哪些?对称加密(加密解密密钥相同):DES、DES3、AES非对称加密(分公钥私钥):RSA信息摘要算法/签名算法:MD5、HMAC、SHA学习资源推荐冷月大佬的博客 : https://lengyue.me/突破前端反调试–阻止页面不断debugger :https://segmentfault.com/a/1190000012359015岚光的JavaScript反调试和混淆 :https://0x0d.im/archives/javascript-anti-debug-an.原创 2020-07-19 23:46:55 · 497 阅读 · 0 评论 -
[681]小米手机安装charles证书,提示“没有可安装的证书”
相信很多开发和测试人员在工作过程中都会用到抓包工具,我平时习惯用charles抓包。所以这里主要讲charles证书问题。在给手机设置完代理后,需要安装证书才能抓包。大部分手机都可以直接在浏览器中输入chls.pro/ssl 下载证书后直接安装证书,但是,小米确实个例外。不能直接安装。问题:通过浏览器下载的crt文件,提示证书无效,安装失败。解决问题:1、不要用小米手机自带的浏览器下载c...原创 2019-10-22 18:59:20 · 7272 阅读 · 0 评论 -
[665]微信之wechat-sender(基于wxpy库)
注意:wechat-sender基于wxpy,wxpy基于itchat,目前腾讯以大批量关闭微信网页版接口,所以wechat-sender当前已不能使用,以下仅做学习记录wechat-sender 是基于 wxpy 和 tornado 实现的一个可以将你的网站、爬虫、脚本等其他应用中各种消息 (日志、报警、运行结果等) 发送到微信的工具。安装pip install wechat_sender...原创 2019-09-28 18:10:29 · 1660 阅读 · 0 评论 -
[608]微信小程序登陆流程
调用接口获取登录凭证(code)。通过凭证进而换取用户登录态信息,包括用户在当前小程序的唯一标识(openid)、微信开放平台帐号下的唯一标识(unionid,若当前小程序已绑定到微信开放平台帐号)及本次登录的会话密钥(session_key)等。小程序可以通过微信官方提供的登录能力方便地获取微信提供的用户身份标识,快速建立小程序内的用户体系。当小程序在企业微信端运行时,需要通过对应的登录接口获取到当前企业微信用户在当前企业的员工身份信息。在小程序插件中使用时,需要在用户信息功能页中获得用户授权之后调用。原创 2019-05-06 18:18:23 · 450 阅读 · 1 评论 -
[607]appium根据屏幕大小滑动界面|通过坐标定位元素
文章目录appium根据屏幕大小滑动界面通过坐标定位元素appium根据屏幕大小滑动界面driver.get_window_size() 获取屏幕的宽、高;driver.swipe() 从坐标1滑动到坐标2,t毫秒时间内完成。上下滑动时,坐标的x值可以不变,只改变坐标y值的大小。左右滑动时,坐标的y值可以不变,只改变坐标x值的大小。上下滑动的代码:def test_contactlistswipe(self): try: #等待列表出现,超时为6s原创 2019-04-28 18:30:02 · 1480 阅读 · 0 评论 -
[606]python运行Appium驱动手机相关用法
文章目录Appium Desktop应用基于python的appium例子appium相关用法Python sample(Python示例)下载首先确保appium环境及依赖安装好Appium Desktop应用由于Appium Desktop出来了,所以使用appium要比以前简单许多1、启动Appium Desktop2、启动成功后如图,点击inspector选择上边第一个菜单,点击这里,输入手机配置好了我们在Desired Capabilities添加以下字段,注意:左侧写ke原创 2019-04-28 18:29:00 · 1460 阅读 · 2 评论 -
[605]appium操作多台手机及常见问题汇总
Appium自带方法中有一个flick()方法。原创 2019-04-27 22:50:47 · 2592 阅读 · 1 评论 -
[602]app抓包之mitmproxy的安装和使用
mitmproxy是一个支持HTTP和HTTPS的抓包程序,类似Fiddler、Charles的功能,只不过它通过控制台的形式操作。此外,mitmproxy还有两个关联组件,一个是mitmdump,它是mitmproxy的命令行接口,利用它可以对接Python脚本,实现监听后的处理;另一个是mitmweb,它是一个Web程序,通过它以清楚地观察到mitmproxy捕获的请求。windows 下需要安装以上,之后再使用安装mitmproxy - linux下的抓包组件。原创 2019-04-24 18:28:31 · 1305 阅读 · 0 评论 -
[601]app抓包Charles安装之爬取微信小程序
除了Web网页,爬虫也可以抓取App的数据。App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的。由于App没有浏览器这种可以比较直观地看到后台请求的工具,所以主要用一些抓包技术来抓取数据。本文介绍的抓包工具有Charles、mitmproxy和mitmdump。一些简单的接口可以通过Charles或mitmproxy分析,找出规律,然后直接用程序模拟来抓取了...原创 2019-04-24 18:27:44 · 2598 阅读 · 4 评论 -
[585]爬虫|字体反爬
目前已知的几个字体反爬的网站是猫眼,汽车之家,天眼查,起点中文网等等。本文用到的第三方库fontTools安装pip install fontTools或者到这个地址下载:https://files.pythonhosted.org/packages/81/d5/d6b345845163f6563c86748e82b9c6077e7ee21ab0289ad8a27a23985f6f...转载 2019-03-25 18:42:05 · 2838 阅读 · 6 评论 -
[531]微信之wxpy库(基于itchat库)
微信机器人 / 可能是最优雅的微信个人号 APIwxpy 在 itchat 的基础上,通过大量接口优化提升了模块的易用性,并进行丰富的功能扩展注意强烈建议仅使用小号运行机器人!从近期 (17年6月下旬) 反馈来看,使用机器人存在一定概率被限制登录的可能性。主要表现为无法登陆 Web 微信 (但不影响手机等其他平台)。项目主页https://github.com/youfou/wx...转载 2019-02-20 18:23:54 · 3823 阅读 · 1 评论 -
[503]模拟器设置代理和开启root权限
点击上图中的“修改网络”,会出现下图中的弹窗,勾选"显示高级选项",接着一切都明了了,代理选择“手动”,代理服务器主机名填写你电脑的ip就行了(windows系统可用ipconfig查看),接着再填写端口。app开发测试的同学为了调试方便,通常会在电脑上装一些android模拟器,开多台进行测试。调试中通常要干的一件事就是抓取,那么想要抓包,我们必须要设置代理。(4)然后打开cmd窗口,执行adb shell,如下即进入普通用户视图。(6)然后mumu模拟器会出现如下确认界面,比如这里确认允许。原创 2019-01-23 18:18:32 · 13881 阅读 · 0 评论 -
[486]Anyproxy的安装和使用
引言:阿里开源功能强大的代理服务器,可用于移动端测试抓包等操作。官网:https://github.com/alibaba/anyproxy简介AnyProxy是阿里巴巴基于 Node.js 开发的一款开源代理服务器。代理服务器站在客户端和服务端的中间,它可以收集双方通信的每个比特。一个完整的代理请求过程为:客户端首先与代理服务器创建连接,接着根据代理服务所使用的代理协议,请...原创 2019-01-08 18:32:08 · 12611 阅读 · 2 评论