- 博客(54)
- 资源 (1)
- 收藏
- 关注
原创 某团mtgsig1.1 && H5guard加密算法剖析
仅供研究学习使用。今天带来的是某团headers中mtgsig参数的逆向。目标站:商家后台登陆 --> 传送门目前大部分h5的算法都更新至1.2了 只有商家版后台还多为1.1的。这里抓包后可以清晰看到 mtgsig明显是一个加密参数,根据经验先瞄一眼a1 a2 …a6其中a1: 版本号a2: 时间戳a3: cookie相关a5: 未知a6:未知x0:固定值d1: 未知字符串取md5这里先从js入手 可以从network中看到实际上也可以自己把代码拷下来在nodejs里面运行
2025-03-14 10:02:44
662
4
原创 网络爬虫-数美滑块验证码
仅供研究学习使用。今天带来的是数美滑块验证码的逆向破解(同程旅行登陆organization=xQsKB7v2qSFLFxnvmjdO)
2024-10-14 16:43:25
1249
原创 企鹅h5充值encrypt_msg h5 1.0.21补环境算法
如图 主要的加密参数就是这个版本号为H5_1.0.21的encrypt_msg参数这次采用的方式为jsdom补环境需要注意的是 我们得从前置页面(https://pay.qq.com/h5/index.shtml?xxxx)拿到关键的入参 用正则匹配出ops大数组以及用户信息openId/openKey等参数成品运行图EndingGithub传送门持续更新ing (欢迎各种star与fork)联系方式: 442891187(QQ)如有权益问题可以发私信联系我删除
2023-11-17 14:19:52
896
原创 网络爬虫-破解顶象滑块验证码
仅供研究学习使用。今天带来的是dx滑块验证码的逆向目标站 --> 传送门解决此类验证码 首先要解决滑动距离的判定 无论是使用selenium还是使用协议的方式来破解 都绕不开滑动距离的识别滑动距离可以参考以前我博客上的方式,或者找一找开源的一些算法,正常的pillow+cv2就可以搞定。废话不多说我们直接进入正题。 先抓包分析接口不难分析 ak为固定参数 类似于极验中的gt 我们主要需要分析的加密参数为ac找到ac初始化的地方,发现就是传入一个图片的token看下ua赋值操作
2022-01-07 16:36:13
4969
4
原创 网络爬虫-苏宁易购api_sign参数逆向解析
失踪人口回归~~~今天给大家带来的是一个简单的js加密分析,废话不多说,先上目标站[定向传送门](https://detail.vip.com/detail-1710615076-6919201301694309444.html我们的目标就是采集到这个累计热卖xxx件。 右键查看源码可以发现并没有藏在静态的HTML中,可以分析出是通过XHR传递到页面上的,所以接下来我们进行抓包操作。可以很轻松地找到这个接口,发现返回的数据里面有我们需要的,然后开始分析这个接口里面的参数,很明显我们发现了api_s
2021-07-12 18:40:36
1241
3
原创 网络爬虫-破解极验三代滑动验证码
什么是“极验”?如果你是从事爬虫相关工作的,那么一定对这两个字不会陌生的。极验是首家「行为式验证」安全技术服务提供商,并以提供验证码服务而闻名。我们日常会登录一些网站,有的网站登录前需要校验验证码,而这个验证码服务很可能就是极验提供的。我们直接进入正题如图所示 这个在登陆面前的拦路虎 便是大名鼎鼎的极验滑块验证码了看到这里 有点基础的小伙伴 应该马上能想到用selenium来模拟人为拖动滑块来解决,这确实是一个不错的方法,在需求量较小的情况下,不失为一个优先的选择,但它的缺点也十分明显:一是
2020-12-25 17:07:05
4700
原创 网络爬虫-某水利建设市场平台(滑块验证码破解)
刚过完端午节! 节后回归一波,发一波之前的库存~直接进入主题 目标站 水利建设市场监管平台触发验证码 --> 首页 --> 从业人员 --> 随便点个人名的链接,如图可以看到就是很普通的滑块验证码,我们今天不用selenium的方式去解决了,换个思路,用js的方式去解决,主要是这个网站的验证码简单,拿来当demo也比较适用。ok 万事先抓包 我们先看看未通过的是怎么样的包 如图然后再看看通过后的 如图ok 很明显 可以看见post的数值就只有3个xpos显然是缺口位置
2020-06-28 18:19:07
1253
2
原创 网络爬虫-今日头条__ac_signature参数逆向(第二弹)
今天要讲的是今日头条web版的__ac_signature参数逆向这次应该是最近刚更新的一个反爬,受朋友委托帮忙查看,跟上次的解决方式差不多,算法方面基本一致。先放上一篇文章的链接网络爬虫-今日头条_signature参数逆向具体如何找到加密算法以及断点调试等可以参考上一篇文章,我这边主要讲一下有哪些坑吧。从上一篇的接口中我们可以拿到一些比如“https://www.toutiao.com/i6824014300391145991/”这样的详情页链接,当我们通过session去访问这些链接的时候 会
2020-05-11 18:45:31
7740
10
原创 网络爬虫-拼多多anti_content参数逆向分析
失踪人口回归深夜第二弹拼夕夕的anti_content参数逆向分析(0ao开头)直接上链接 --> 拼多多首先进行基操,随便搜索个关键词并抓包可以发现第一次搜索的时候并没有什么加密,真正的anti_content参数是在我们拉动下拉框(等同于翻页)操作加载数据触发接口时才有的。实际上除了anti_content以外其他参数都是要么在第一次访问首页时返回了或者直接写成固定值就ok...
2020-03-17 01:00:35
9787
12
原创 网络爬虫-今日头条_signature参数逆向(第一弹)
失踪人口回归ing今天要讲的是今日头条web版的_signature参数逆向直接上链接 --> 今日头条首先随便点开一个版本,这里点的是娱乐,抓包看看结果。可以很清晰地看到首页html源码里面并没有上图中的关键字"古巨基",可以初步判断是异步加载的数据,所以接着往后面找找接口。不难找到这个接口,可以看到data里面的数据就是网页上所展示的了,所以可以确定这个接口就是用来拿数据...
2020-03-17 00:00:59
14984
21
原创 网络爬虫-抓取全国高校名单(分区域)
参考链接: 从人人网获取全国中学信息(省市县)主要代码为参考+改进上面博客的原创,在人人网的select弹框form里面抓取出全国高校名单.主要代码块如下def getProvinceData(): content = open("./cityArray.js", encoding='utf-8') # 分离出市级id和名称 partten = re.compil...
2019-11-11 15:17:40
1356
原创 网络爬虫-cloudflare五秒等待验证逆向破解
Cloudflare是国外的一家安全防护公司,最近在很多网站上也看到了他的身影,比较明显的特征就是让你等待5秒钟以验证你是否是真实的浏览器。以 https://www.biovision.com/ 为例另一个明显的特征就是它的cookie里面会包含__cfduid, cf_clearance 这个两个字段。 如果你发现你访问的网站里有这些特征,那么毫无疑问他就是采用了 Cloudflare的...
2019-09-25 15:23:30
19386
19
原创 网络爬虫-计算型验证码破解
爬虫中最常见的反爬手段之一就是验证码,而我们平常所遇见的验证码最多的便是数英验证码,数英验证码可以有效地收集数据集并进行训练,达到靠谱的识别率,而另一个很常见的就是计算型验证码了,如下图示:这个验证码,咋一看,感觉上是十分简单的,因为简单的OCR识别就能很精准地识别它,但是我们该怎么做呢,先看这个图片是如何构成的。可以清晰地看到,这个验证码实际上是由4张图片所构成,即"9" “x” “1”...
2019-09-19 17:27:54
2399
1
原创 网络爬虫-爱给音效素材网js逆向思路
失踪人口回归~~~今天的主角是:爱给音效素材网不得不说这是一个表面人畜无害,实则暗藏玄机的网站,js加密说不上复杂,但是能让你抓狂~我们以其中一个子页面为例:页面传送门接下来进行抓包分析可以发现在进行下载操作的时候,一共发出了两个请求,根据我们以往的经验,不难看出,第一个请求的请求体进行了一次加密,然后服务端返回的数据又进行了一次解密,得到第二个请求的参数或者链接,就可以下载了。...
2019-09-04 15:43:09
7163
13
原创 网络爬虫-cnzz网站统计(umuuid参数加密破解)
总体来说算是比较easy的js加密 由于涉及到部分隐私 就简单说下该参数的加密思路以马蜂窝为例 该网站使用的是CNZZ统计流量首先抓包看参数,如图可以比较清晰地看到 cnzz的统计是发起的这个get请求然后看下这些参数 我们不确定的参数有 id / cnzz_eid / umuuid / rnd ,除了这几个 其他的应该都是常量或者可以轻易伪造的 如时间戳以及屏幕大小等为了搞清楚这几...
2019-07-09 18:27:11
14483
原创 网络爬虫--记一次有趣的侦察型反爬手段(ebay)
起因: 偶然在群里看到一位小老弟的求助 说是某电商网站对手机号进行了反爬,我寻思之前也写过58电话解密的 就助(mian)人(wei)为(qi)乐(nan)地看一下吧ebay网站地址进去抓包一看 几百个请求 唰唰唰的由于被误导了一波 以为是什么js或者异步加载的数据 于是去原网站点击加载电话号码那个按钮看了一会儿 然后又找了下请求包 发现似乎是没有任何数据进来奇怪的是 原html...
2019-06-21 16:47:21
12715
1
原创 网络爬虫-上传爬虫文件至阿里云OSS(以视频/图片为例)
OSS 的作用这个OSS 存储能够帮助我们完成很多新的需求 , 如果你是土豪你可以把它当成一个网盘来使用,如果你是个后端开发者那么恭喜你,你就相当于有了一台静态资源服务器 ! 你可以把图片以及静态页面放到这里 ! 通过OSS获取需要的资源,从而减少服务器的IO操作~,不止如此,一些视频类的网站还可以把需要保持的视频存储到这里,OSS还为我们提供了很多图片处理API,包括防盗链、水印…阿里云对象...
2019-05-29 17:43:30
12891
原创 网络爬虫-一键转换爬虫请求头headers(Fillder/各大浏览器适用)
程序员都是懒惰的~这个是真理!于是有了这个一键转换请求头的神器,平时厌烦了打单双引号,逗号的童鞋可以偷懒了,咱做爬虫的,也挺不容易的~直接贴代码 -->(原理很简单,目前测试了fiddler和浏览器的请求头)import jsondef get_header(headers): hs = headers.split('\n') b = [k for k in h...
2019-05-06 15:55:52
16900
原创 网络爬虫-爬取有效机构查询网(CNAS)全量数据
目标网站 --> 有效机构查询网需求如下:咋一看 不太难 全是静态html 且数据也都是规则的 这时候xpath工程师的作用就体现了!于是乎先开始抓接口 查询接口这里出现了个验证码 而且是会后端验证的(有那种只是前端验证不给后端验证的忽悠人的验证码) 还好是普通的数英验证码 直接调用我以前的接口就行 headers = { "User-A...
2019-04-26 11:42:44
23372
2
原创 网络爬虫-58同城·招聘联系电话js解密
一个简单的cryptojs加密的网站,58同城·招聘的隐藏电话号码 如下图示注意,58招聘查看联系方式是需要登录授权的,所以前面的步骤一一省略,仅分析抓包请求,如何通过requests拿到我们想要的电话号码接下来进行抓包分析,我们点击电话沟通,看看是加载了哪些请求不难发现 这个异步请求给我们返回了一个值 virtualNum 虚拟电话号码 于是可以联想到这个数据是经过了加密的 于是接下来...
2019-03-29 12:09:16
18663
7
原创 网络爬虫-icgoo电子元件网js加密破解分析
失踪人口回归~~~今天是帮一个小老弟看的一个比较简单的js加密网站,考虑到一部分童鞋对js加密这块还不太熟悉,我就简单地把思路和流程捋一捋。首先打开需要拿数据的页面 → 电子元件网AD620哗啦啦的就加载出来了 ,然鹅右键查看源码, 一看,果然没有页面上的数据,确诊动态js加载无疑。于是下一步就是万能的fiddler大法了。这些就是刷新页面所有的请求了,但框出来的这一部分是啥? 这个...
2019-03-14 17:52:09
15134
3
原创 网络爬虫-2018个人总结
概述忙里偷闲,趁着元旦休息的这几天,在2018年的最后一天,总结一下自己在这一年遇到过的多多少少的坑以及一些心得体会吧。粗略算下来,从事爬虫工程师这个岗位也算是一年有余了吧,从一个毛发旺盛的小伙,到一个即将面对秃头危机的油腻大叔,也只花了一年的时间~...
2018-12-31 18:29:50
13770
1
原创 网络爬虫-抓取1000W百度文库doc文档
今天抓取的是百度文库doc文档,但是要求确实随机的1000万份文档并存为txt文本,下载百度文库的开源项目已经有了,那么去哪里找到1000万个百度文库doc文档的url呢,并且在短时间内下载下来。因为爬虫是一个IO密集型业务,所以使用协程效率则最高,第一时间想到了gevent。首先分析百度文库的urlhttps://wenku.baidu.com/search?word=%BD%CC%CA%...
2018-12-10 17:46:09
12815
1
原创 网络爬虫-使用requests上传multipart/form-data格式文件
由于以前没有使用requests上传过文件,所以今天在使用它上传文件的时候遇见了一个坑,接下来我们就来一层一层解析这个坑以科大讯飞官网上传音频文件为例首先是喜闻乐见地打开Fiddler进行抓包操作,流程也很简单,很快就抓下来了上传文件的这个包,见下图然后就进入了懵逼模式,content-type里面这个boundary是啥,以前咋没见过呢,还有data里面的这些个东西又是啥,还来乱码了,奇...
2018-11-19 18:22:33
22792
8
原创 网络爬虫-爬取指定城市空气质量检测数据
爬取指定城市空气质量检测数据网站链接 → https://www.aqistudy.cn/historydata/以月数据为例,见下图:然后我们通过console调试可以发现 这个网页在items里面已经将数据打包好了,如下图所示没毛病,数据全都对得上,接下来的思路就是利用拼接url的方法,使用selenium进入网页,利用selenium的注入js方法,直接让网页返回我们想要的数据源...
2018-11-15 11:15:44
15648
1
原创 网络爬虫-破解京东滑块验证码
最近一直在研究滑块验证码这一块,接连破解了极验2.0,极验3.0以及淘宝滑块,当然了,只是使用selenium模拟过,拿到cookie后进行后续操作。今天就讲讲京东这个滑块验证码,神坑,之前的轨迹方程全部不可用,需要自己慢慢调试,找到最佳参数,最大化模拟人为操作才能过,目前我过的几率为80%左右。京东登陆页面京东这个滑块验证码的最大的坑就在于 大量的模拟人为的轨迹方程都被封了 比如过极验2...
2018-10-31 15:31:45
29886
43
原创 网络爬虫-爬取一卡通企业数据保存CVS
最近被各种encode,decode折磨得死去活来的,保存到json,csv或者txt各种乱码,实在了令人抓狂,有些明明是正确输出在pycharm上的,但是保存的时候就乱码了,今天就记录一下采坑过程。以一卡通世界官网为例(保存至CSV):以上便是需要保存的字段了。代码如下:import requestsfrom lxml import etreeimport csvimport ...
2018-10-24 15:51:01
11392
原创 网络爬虫-绕过debugger反爬(Paused in debugger)
最近发现很多网站出现了前端反调试debugger来反爬,防止数据被抓取,实际上是很简单的原理,其实也就是js搞的鬼,看来作为一名合格的爬虫工程师,在js的道路上也会越走越远–!废话不多说,看图→Paused in debugger, 是不是看着很熟悉,接下来就是如何solve它。首先我们需要找到call stack里是什么阻断了我们,比如七麦网,我们可以看到,e参数以及t参数,我们双击进去,...
2018-10-15 17:10:32
25515
23
原创 网络爬虫-神器fiddler抓取app数据
才接触爬虫的时候,我们通常使用的是浏览器的开发者工具-F12里的NetWork对网页进行抓包,但是这有一个缺点,就是如果网页加载了很多乱七八糟的东西,比如广告啊,各种各样的js之类的时候,NewWork就显得有点吃力了,我们就需要使用更强大的工具来进行抓包,我个人比较喜欢使用Fiddler,毕竟免费的好用,另外有喜欢的朋友也可以使用Charles,它只能免费使用一段时间。这里贴出下载地址:fi...
2018-09-30 15:37:36
19503
1
原创 网络爬虫-模拟手机浏览器抓取数据
有些网站的数据在PC端很复杂,参数加密很严重,但是移动APP端的就没那么多加密,所以在遇到有些瓶颈的情况下,可以考虑从网页端转到移动端去抓包,爬取数据。这里有两种方法:一. 使用模拟器下载APP如果该网站有APP的话,推荐使用逍遥安卓模拟器,可以设置代理,使用fiddler进行抓包。二.使用谷歌浏览器伪装安卓/苹果用户这种方式就比较简单方便,直接修改chrome浏览器的use...
2018-09-15 15:39:20
15729
7
原创 网络爬虫-pyqt5绕过反爬服务
当遇到使用selenium被网站识别为robot的时候,首先考虑的是换chromedriver,geckodriver,iedriver等,如果都还行不通,那么可以尝试修改chromedriver源码: stackoverflow传送门如果都行不通那么请尝试使用pyqt5pyqt5不仅可以做界面,他还可以调用强大的QtWebKit模块,QtWebKit是一个基于开源项目 ,WebK...
2018-08-29 16:03:38
13532
1
原创 网络爬虫-liunx环境下部署selenium+chromedriver
由于一些万恶的网站需要加载js才能抓取数据,我们只能使用selenium去抓取,我们知道selenium如何在windows上跑,只需要将正确对应版本的chromedriver放在Python路径下或者配置PATH环境变量即可。但是在linux环境下配置selenium+chrome需要配置的环境就很麻烦了,网上的教程也不太全面,我将我花了一天时间查阅的各种资料以及各种报错整理下来,供大家参考...
2018-08-24 11:36:30
15078
8
原创 网络爬虫-distil networks反爬虫服务
抓过大量数据的童鞋应该遇见过万恶的distil networks。 划重点,该公司的反爬服务是真的“牛逼”! 验证码是这样的 –> 一个是旋转图片,一个是播报语音,想想都难受,误伤率以及体验感都会很差,但是既然买了这个服务的公司,肯定也是数据十分珍贵吧,否则也不会冒着丢失客户的风险去搞这么个反爬虫服务。...
2018-08-22 18:24:42
31584
1
原创 网络爬虫-抓取酷航机票信息
今天抓取的是一家廉价航空公司的机票信息,该网站采用了收费的反爬虫服务,有兴趣的童鞋可以了解一下: distil networks当我抓该网站的post接口时,发现几个比较棘手的问题: 一. 不带cookie访问该网站的任意页面会被识别为机器人 二. cookie具有时效性,访问次数过多会被ban,一段时间后可继续使用 三. 无法使用selenium抓取数据,会被识别成机器人 四....
2018-08-14 21:44:21
14518
3
原创 网络爬虫-爬取飞常准航班信息
今天爬取的是一个航空公司网站的航班信息–飞常准 我们需要遍历抓取每一个航班里的所有信息 这里需要注意 有些列出来的航班可能不存在信息 需要进行一次判断 另外 访问过快会导致被该网站封号,解封会出现验证码,可以自己搭建免费ip代理池或使用收费代理 代码如下:import requestsimport jsonimport pytesseractimport rei...
2018-08-09 22:04:09
22302
9
原创 网络爬虫-爬取十万张表情包
最近和同事和朋友斗图斗得厉害,心想哪里来的这么多表情包,于是乎想着去表情包网站爬一波图片下来,便有了今天这边文章。话不多说,上图上代码!将这3540页表情包全部抓取下来,存到我的本地磁盘。spider.py# -*- coding: utf-8 -*-import scrapyfrom biaoqing.items import BiaoqingItemclass ...
2018-08-04 23:48:12
13782
3
Python爬虫开发与项目实战
2018-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人