
爬虫
文章平均质量分 86
逆向与爬虫的故事
TheWeiJun,专注于网络爬虫、Js逆向、App逆向实战经验分享。
展开
-
Scrapy结合MongoDB源码重构,打磨完美指纹存储机制!
一、前言介绍大家好,我是TheWeiJun。在使用Scrapy-Redis进行数据采集时,经常会面临着Redis内存不足的困扰,特别是当Redis中存储的指纹数量过多时,可能导致Redis崩溃、指纹丢失,进而影响整个爬虫的稳定性。那么,面对这类问题,我们应该如何应对呢?我将在本文中分享解决方案:通过改造Scrapy-Redis源码,引入MongoDB持久化存储,从根本上解决了上述问题。敬请关注我的文章,一起探讨这个解决方案的实现过程,以及带来的收益和挑战。逆向与爬虫的故事。原创 2024-05-19 16:47:54 · 1064 阅读 · 0 评论 -
用Scrapy爬取5秒盾站点,结果万万没想到,速度可以这么快!
在今天的故事中,我将引领大家穿越Scrapy的技术迷雾,通过twisted源码改造,实现高并发爬取,成功攻克五秒盾站点的技术难关。观察上述代码,我们可以注意到Scrapy的作者默认会过滤掉状态码在200以内的请求,因为在作者看来,以200开头的请求都是成功的。我是TheWeiJun,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。1. 首先,我们来了解一下Scrapy的运行机制,然后找到相应的模块,并查看Scrapy源码的实现。原创 2024-03-03 22:03:27 · 1876 阅读 · 1 评论 -
某云滑块验证码别乱捅!一不小心就反爬了。
在本文中,我们将揭开滑块验证码的神秘面纱,一起探索它的工作原理,了解它是如何巧妙地识别真人身份的。简单确认一下加密方式,i参数应该是AES-CBC模式加密,K参数应该是RSA加密,然后我们再确定下cb参数11位也是随机生成的,接下来进入算法还原环节。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。结合3、4环节中的请求体,我们可以看到这滑块接口和验证接口应该使用的是同一套加密逻辑,接下来我们进入参数逆向分析环节吧。原创 2024-01-28 23:12:27 · 2176 阅读 · 0 评论 -
某美滑块验证码别乱捅!一不小心就反爬了。
通过还原算法、模拟轨迹、识别滑块距离,他逐渐揭开了滑块验证码的神秘面纱。经过不懈的努力,他终于成功破解了滑块的诡计,让这个烦人的问题不再是他的困扰。某美验证码的应用非常广泛,像某书、某街就是使用了某美滑块来进行风控的,当爬虫没有使用代理ip、ip质量比较差或者单个代理ip使用次数过多的时候,就会出现滑块验证码,严重的时候还会出现无限滑块的情况。我是TheWeiJun,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。原创 2023-11-11 11:44:00 · 1996 阅读 · 0 评论 -
被魔改md5加密坑了?某网站魔改md5加密逆向还原 (多种语言还原)
大家好,我是TheWeiJun;最近由于工作太忙好久没有更新了。静下心来,突然很想念各位读者朋友,所以晚上抽空更新一篇。今天分享一篇关于魔改md5实现的加密算法逆向分析,本文将用多种语言还原加密算法,...原创 2023-08-23 14:25:39 · 2343 阅读 · 0 评论 -
深入探索Go语言net/http包源码:从爬虫的视角解析HTTP客户端
HTTP是现代互联网中最重要的通信协议之一,而在Go语言中,net/http包则是处理HTTP请求与响应的核心库。本文将带你深入探索net/http包的源码,从爬虫的角度解析其内部工作原理,为你揭示Go语言中HTTP客户端的奥秘。通过本文的分析,我们深入了解了Go语言中net/http包的源码,并从爬虫的角度解析了HTTP客户端的工作原理。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。接下来,我们看看它的实现。原创 2023-08-15 15:06:24 · 2099 阅读 · 0 评论 -
探秘迷雾背后:逆向短视频弹幕系统的奇妙之旅
大家好,我是TheWeiJun。在这里,我将与大家分享一项令人兴奋的研究成果:成功逆向短视频弹幕系统!然而,出于合法合规和保护知识产权的考虑,本文仅展示逆向成果,不做具体分享。近期,笔者成功逆向某短视频APP弹幕系统,探究其神秘面纱。然而,出于法律风险和敏感性问题,笔者决定不分享具体逆向过程。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。分享日常学习中关于爬虫及逆向分析的一些思路,文中若有错误的地方,欢迎大家多多交流指正💕原创 2023-08-01 17:40:39 · 2381 阅读 · 0 评论 -
数据解码:挑战不常见爬虫逆向分析,揭开数据迷雾的面纱
本文将带你进入一个神秘的逆向网站服务的世界,它以其独特的技术能力而闻名。,一个热爱阅读小说的小伙子,沉迷于mobi格式的书籍中。通过黑客般的技能,他将mobi文件投入逆向网站的深渊,瞬间,文件以txt的形式重新浮现!然而,有时我们会遇到一些特殊的格式,它们并不常见或缺乏对应的开源转换工具。2、点击页面中的选择文件按钮,上传我们需要转换的文件,然后点击Target选择转换格式。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。原创 2023-07-24 21:47:59 · 2925 阅读 · 0 评论 -
某某星图sign参数解密分析
可以确定,刚刚的js调试的sign值和请求的url的sign值一致,那么我们对所有的js算法进行还原成python代码吧!计算长度为32位,初步怀疑为md5加密,找到加密参数后,进行断点调试。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎加我微信与我交朋友。分享日常学习中关于爬虫、逆向和分析的一些思路,文中若有错误的地方,欢迎大家多多交流指正☀️。通过分析,可以确定和js调试的sign值结果一致,接下来进行算法还原!微信搜:逆向与爬虫的故事;原创 2023-06-02 19:37:34 · 1523 阅读 · 0 评论 -
B站弹幕protobuf协议还原分析
所以很适合做数据存储和为不同语言,不同应用之间互相通信的数据交换格式,只要实现相同的协议格式,即后缀为proto文件被编译成不同的语言版本,加入各自的项目中,这样不同的语言可以解析其它语言通过Protobuf序列化的数据。我是TheWeiJun,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。由于弹幕内容使用了protobuf协议,所以无法直接搜索定位,我们需要分析数据包请求,去定位具体的url链接。接下来继续执行断点。原创 2023-05-22 14:01:23 · 1738 阅读 · 2 评论 -
某某星图sign参数解密分析
计算长度为32位,初步怀疑为md5加密,找到加密参数后,进行断点调试。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。可以确定,刚刚的js调试的sign值和请求的url的sign值一致,那么我们对所有的js算法进行还原成python代码吧!分享日常学习中关于爬虫及逆向分析的一些思路,文中若有错误的地方,欢迎大家多多交流指正💕。通过分析,可以确定和js调试的sign值结果一致,接下来进行算法还原!微信搜:逆向与爬虫的故事;原创 2023-05-16 19:44:56 · 1089 阅读 · 1 评论 -
某安网别逆向,一不小心就......
大家好,我是TheWeiJun,欢迎来到我的公众号。在现代互联网中,cookie成为了网站管理的重要工具。某些网站会对cookie进行加密,以加强数据的安全性和保密性。然而,逆向加密算法并不是一件简单的事情。本文将探讨如何逆向某安网站的cookie加密参数,向读者介绍这一过程中所涉及的技术和工具,并提供详细的步骤和示例代码,以帮助读者更好地理解和掌握Cookie加密的原理与实现。原创 2023-05-10 11:25:47 · 1885 阅读 · 0 评论 -
DX滑块验证码别乱捅!一不小心就反爬了。
我简单说一下这个密文值的来历,DX会在一开始加载的时候就会初始化,然后记录你的指纹跟一个固定值来生成的一个参数,我这里也不跟栈,大家直接搜window._dx.UA.init即可,然后下断就知道了。w=288开头的,另一种是v1开头的接口。1、我们开始选择跟栈,找到ac的加密位置,在下一个断点我们可以看到这里就是他加密的地方了,但是很奇怪,我们发现这里已经有了部分密文值了。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。原创 2023-05-04 11:12:34 · 2233 阅读 · 5 评论 -
某站弹幕Protobuf协议逆向分析 | Go语言版本
一杯敬明天,一杯敬过往。大家好,我是TheWeiJun,时间过得好快,转眼间春节已过,此刻大家都已经开始复工了吧!首先祝大家新年快乐、2023年一路旺旺旺。小编也是心情激动,才有了前面的开场白。直入主题:今天给大家带来某站弹幕protobuf协议逆向分析,全程高能,在阅读的同时不要忘记点赞+关注哦⛽️原创 2023-04-23 14:16:17 · 1754 阅读 · 0 评论 -
某游戏社区App | So层逆向分析
加载so、通过native关键字定义了需要调用的方法getSign,也就是说,它这里调用的是so层的加密算法,so是什么?到这里,我们可以肯定,sign的加密算法就是md5加密;分析上面authorization的加密逻辑,我们需要确定return返回值中包含的多个参数的初始值即可完成对该参数的算法还原,接下来我们一起进入hook调试环节分析一下该算法吧。此刻我们已经知道了str、str2的生成规律,我们只需要还原该接口请求就能实现str、str2的参数生成,接下来我们需要对sign参数进行解密分析。原创 2023-04-11 16:05:35 · 3099 阅读 · 0 评论 -
爬虫最快框架collyx,今天开源了...
技术总是在不停的迭代更新,我们不能止步不前。实现了重试机制,各个功能可插拔,自定义解析模块、结构体模块等,抽象了调度模块,大大减少代码冗余,快速提高开发能力;它的主要特点是轻量、快速,设计非常优雅,并且分布式的支持也非常简单,易于扩展。总结:爬虫运行5分钟后,在代理足够充足情况下统计,抓取该网站每分钟约产生2000条数据,可以毫不吹牛的说,这是我迄今为止见过最快的爬虫框架。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎加我微信与我交朋友。原创 2023-03-29 20:36:21 · 1377 阅读 · 0 评论 -
GoLang - colly爬虫框架
大家好,我是TheWeiJun。很高兴又和大家见面了,国庆假期马上就要结束了,在国庆假期里小编看了下colly框架,故这篇文章中将提到colly的使用及分析;欢迎各位读者多多阅读与交流!特别声明:本公众号文章只作为学术研究,不作为其它不法用途;如有侵权请联系作者删除。 目录一、colly框架简介二、colly特性说明三、爬虫架构对比四、colly框架实战五、colly总结说明一、colly框架简介前言:colly 是 Go 实现的比较有名的一款爬虫框架,而且 Go 在高并发和分布式场景的优势也正是爬虫技术所原创 2022-12-05 17:00:35 · 2933 阅读 · 0 评论 -
某某网站JS逆向及tls指纹绕过分析
而今天我们要分享的文章中,和提到的这几个类型完全没有任何关联,遇到这样的问题,该如何解决这类型的问题?到此我们已经能够解决Robbers粉丝遇到的问题了,这也让我意识到随着反爬策略的升级,服务端可能会对爬虫最常用的第三方包进行请求指纹检测。看到此处后一下豁然开朗了,可以肯定对方服务端会对请求指纹进行校验,如果是我们刚刚使用的第三方包,都会被服务端给识别到,最后返回身份授权失败错误。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎加我微信与我交朋友。原创 2022-11-22 11:20:55 · 2364 阅读 · 1 评论 -
某某analysis参数算法分析
某麦analysis参数算法分析原创 2022-11-03 16:55:49 · 467 阅读 · 0 评论 -
某数5代Cookies生成算法分析
大家好,我是TheWeiJun。某数困扰了笔者许久,终于调试出来了,不枉我熬到深夜,特地放出来流程图希望对读者朋友们有所帮助,在调试某数的过程中建议大家固定一个环境然后使用ast局部进行解除数组混淆和自执行函数混淆(这里推荐下蔡老板的星球,学习ast知识非常给力),除此之外要注意堆栈回溯和变量间的赋值,诀窍是需要哪的关键代码就扣哪,不要把cookies生成无关的代码扣进去!微信搜:逆向与爬虫故事;原创 2022-10-28 16:56:32 · 1529 阅读 · 0 评论