自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 爬虫最快框架collyx,今天开源了...

技术总是在不停的迭代更新,我们不能止步不前。实现了重试机制,各个功能可插拔,自定义解析模块、结构体模块等,抽象了调度模块,大大减少代码冗余,快速提高开发能力;它的主要特点是轻量、快速,设计非常优雅,并且分布式的支持也非常简单,易于扩展。总结:爬虫运行5分钟后,在代理足够充足情况下统计,抓取该网站每分钟约产生2000条数据,可以毫不吹牛的说,这是我迄今为止见过最快的爬虫框架。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎加我微信与我交朋友。

2023-03-29 20:36:21 1368

原创 Scrapy结合MongoDB源码重构,打磨完美指纹存储机制!

一、前言介绍大家好,我是TheWeiJun。在使用Scrapy-Redis进行数据采集时,经常会面临着Redis内存不足的困扰,特别是当Redis中存储的指纹数量过多时,可能导致Redis崩溃、指纹丢失,进而影响整个爬虫的稳定性。那么,面对这类问题,我们应该如何应对呢?我将在本文中分享解决方案:通过改造Scrapy-Redis源码,引入MongoDB持久化存储,从根本上解决了上述问题。敬请关注我的文章,一起探讨这个解决方案的实现过程,以及带来的收益和挑战。逆向与爬虫的故事。

2024-05-19 16:47:54 1057

原创 用Scrapy爬取5秒盾站点,结果万万没想到,速度可以这么快!

在今天的故事中,我将引领大家穿越Scrapy的技术迷雾,通过twisted源码改造,实现高并发爬取,成功攻克五秒盾站点的技术难关。观察上述代码,我们可以注意到Scrapy的作者默认会过滤掉状态码在200以内的请求,因为在作者看来,以200开头的请求都是成功的。我是TheWeiJun,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。1. 首先,我们来了解一下Scrapy的运行机制,然后找到相应的模块,并查看Scrapy源码的实现。

2024-03-03 22:03:27 1859 1

原创 某云滑块验证码别乱捅!一不小心就反爬了。

在本文中,我们将揭开滑块验证码的神秘面纱,一起探索它的工作原理,了解它是如何巧妙地识别真人身份的。简单确认一下加密方式,i参数应该是AES-CBC模式加密,K参数应该是RSA加密,然后我们再确定下cb参数11位也是随机生成的,接下来进入算法还原环节。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。结合3、4环节中的请求体,我们可以看到这滑块接口和验证接口应该使用的是同一套加密逻辑,接下来我们进入参数逆向分析环节吧。

2024-01-28 23:12:27 2158 1

原创 某美滑块验证码别乱捅!一不小心就反爬了。

通过还原算法、模拟轨迹、识别滑块距离,他逐渐揭开了滑块验证码的神秘面纱。经过不懈的努力,他终于成功破解了滑块的诡计,让这个烦人的问题不再是他的困扰。某美验证码的应用非常广泛,像某书、某街就是使用了某美滑块来进行风控的,当爬虫没有使用代理ip、ip质量比较差或者单个代理ip使用次数过多的时候,就会出现滑块验证码,严重的时候还会出现无限滑块的情况。我是TheWeiJun,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。

2023-11-11 11:44:00 1985

原创 被魔改md5加密坑了?某网站魔改md5加密逆向还原 (多种语言还原)

大家好,我是TheWeiJun;最近由于工作太忙好久没有更新了。静下心来,突然很想念各位读者朋友,所以晚上抽空更新一篇。今天分享一篇关于魔改md5实现的加密算法逆向分析,本文将用多种语言还原加密算法,...

2023-08-23 14:25:39 2304

原创 深入探索Go语言net/http包源码:从爬虫的视角解析HTTP客户端

HTTP是现代互联网中最重要的通信协议之一,而在Go语言中,net/http包则是处理HTTP请求与响应的核心库。本文将带你深入探索net/http包的源码,从爬虫的角度解析其内部工作原理,为你揭示Go语言中HTTP客户端的奥秘。通过本文的分析,我们深入了解了Go语言中net/http包的源码,并从爬虫的角度解析了HTTP客户端的工作原理。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。接下来,我们看看它的实现。

2023-08-15 15:06:24 2093

原创 探秘迷雾背后:逆向短视频弹幕系统的奇妙之旅

大家好,我是TheWeiJun。在这里,我将与大家分享一项令人兴奋的研究成果:成功逆向短视频弹幕系统!然而,出于合法合规和保护知识产权的考虑,本文仅展示逆向成果,不做具体分享。近期,笔者成功逆向某短视频APP弹幕系统,探究其神秘面纱。然而,出于法律风险和敏感性问题,笔者决定不分享具体逆向过程。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。分享日常学习中关于爬虫及逆向分析的一些思路,文中若有错误的地方,欢迎大家多多交流指正💕

2023-08-01 17:40:39 2375

原创 数据解码:挑战不常见爬虫逆向分析,揭开数据迷雾的面纱

本文将带你进入一个神秘的逆向网站服务的世界,它以其独特的技术能力而闻名。,一个热爱阅读小说的小伙子,沉迷于mobi格式的书籍中。通过黑客般的技能,他将mobi文件投入逆向网站的深渊,瞬间,文件以txt的形式重新浮现!然而,有时我们会遇到一些特殊的格式,它们并不常见或缺乏对应的开源转换工具。2、点击页面中的选择文件按钮,上传我们需要转换的文件,然后点击Target选择转换格式。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。

2023-07-24 21:47:59 2916

原创 某容器管理平台模拟登录(Go语言版本)

查看js代码后,我发现了问题关键,这个是由于通过浏览器访问时,js代码会将set-cookie给remove掉,这样对我们在分析该网站时,就会定位不到该参数如何下发的,从而放弃操作。cookies一种保存在电脑上的一种文件,当我们使用电脑进行浏览网页的时候,服务器就会生成一个证书,并且返回给我们的电脑,这个证书就是cookie,一般情况下,cookie是服务器写入客户端的文件,我们也可以叫浏览器缓存。由于我们想要获取登录的协议接口,故我们随便输入内容,可查看到模拟登录所需要的data参数主要为上图六个。

2023-07-13 17:29:03 2321

原创 革新之路:重新设计Scrapy调度器,让爬虫速度翻倍

涛哥的故事激励着无数爬虫工程师,让他们相信,无论遇到多大的困难,只要勇往直前,就能找到通向胜利的代码路径。很显然,我们不应该采用这样的方式去解决问题。通过重新设计和优化调度器源码,我们可以实现更灵活、高效的爬虫调度策略,从而为我们的数据采集任务赋予更强大的能力。FIFO(First-In-First-Out)调度:默认的调度方式,按照请求的先后顺序进行调度,即先进先出的原则。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。

2023-07-01 15:47:33 2559

原创 Scrapy源码分析之Dupfilters模块(第二期)

③如果我不用Scrapy-Redis分布式做爬虫抓取,采用Scrapy,每次抓取完成后,指纹全部丢失,我们该如何将指纹和Scrapy-Redis一样进行持久化存储呢?:index为1并没有被打印出来,是因为触发了scrapy默认的去重机制导致,这个时候我们会发现scrapy的stats中间件将dupefilter/filtered的值设置为1。我是TheWeiJun,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。

2023-06-20 15:52:06 1626

原创 猿人学逆向比赛第四题-gRPC题解 | Go版本

本文将探讨如何逆向猿人学App的gRPC协议,向读者介绍这一过程中所涉及的技术和工具,并提供详细的步骤和示例代码,以帮助读者更好地理解和掌握gRPC原理与实现。在分析的过程中,依依遇到了无数的困难和挑战,但是她从不放弃,一直努力地学习和尝试。总结:我们通过分析图中红色的箭头,能够看到一组数字,这个就是gRPC响应给我们的数据,拿到他以后,我们就能够将每一页的数据相加完成答题了。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。

2023-06-09 19:47:19 1818

原创 某某星图sign参数解密分析

可以确定,刚刚的js调试的sign值和请求的url的sign值一致,那么我们对所有的js算法进行还原成python代码吧!计算长度为32位,初步怀疑为md5加密,找到加密参数后,进行断点调试。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎加我微信与我交朋友。分享日常学习中关于爬虫、逆向和分析的一些思路,文中若有错误的地方,欢迎大家多多交流指正☀️。通过分析,可以确定和js调试的sign值结果一致,接下来进行算法还原!微信搜:逆向与爬虫的故事;

2023-06-02 19:37:34 1512

原创 B站弹幕protobuf协议还原分析

所以很适合做数据存储和为不同语言,不同应用之间互相通信的数据交换格式,只要实现相同的协议格式,即后缀为proto文件被编译成不同的语言版本,加入各自的项目中,这样不同的语言可以解析其它语言通过Protobuf序列化的数据。我是TheWeiJun,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。由于弹幕内容使用了protobuf协议,所以无法直接搜索定位,我们需要分析数据包请求,去定位具体的url链接。接下来继续执行断点。

2023-05-22 14:01:23 1712 2

原创 某某星图sign参数解密分析

计算长度为32位,初步怀疑为md5加密,找到加密参数后,进行断点调试。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。可以确定,刚刚的js调试的sign值和请求的url的sign值一致,那么我们对所有的js算法进行还原成python代码吧!分享日常学习中关于爬虫及逆向分析的一些思路,文中若有错误的地方,欢迎大家多多交流指正💕。通过分析,可以确定和js调试的sign值结果一致,接下来进行算法还原!微信搜:逆向与爬虫的故事;

2023-05-16 19:44:56 1074 2

原创 某安网别逆向,一不小心就......

大家好,我是TheWeiJun,欢迎来到我的公众号。在现代互联网中,cookie成为了网站管理的重要工具。某些网站会对cookie进行加密,以加强数据的安全性和保密性。然而,逆向加密算法并不是一件简单的事情。本文将探讨如何逆向某安网站的cookie加密参数,向读者介绍这一过程中所涉及的技术和工具,并提供详细的步骤和示例代码,以帮助读者更好地理解和掌握Cookie加密的原理与实现。

2023-05-10 11:25:47 1864

原创 DX滑块验证码别乱捅!一不小心就反爬了。

我简单说一下这个密文值的来历,DX会在一开始加载的时候就会初始化,然后记录你的指纹跟一个固定值来生成的一个参数,我这里也不跟栈,大家直接搜window._dx.UA.init即可,然后下断就知道了。w=288开头的,另一种是v1开头的接口。1、我们开始选择跟栈,找到ac的加密位置,在下一个断点我们可以看到这里就是他加密的地方了,但是很奇怪,我们发现这里已经有了部分密文值了。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。

2023-05-04 11:12:34 2216 5

原创 某站弹幕Protobuf协议逆向分析 | Go语言版本

一杯敬明天,一杯敬过往。大家好,我是TheWeiJun,时间过得好快,转眼间春节已过,此刻大家都已经开始复工了吧!首先祝大家新年快乐、2023年一路旺旺旺。小编也是心情激动,才有了前面的开场白。直入主题:今天给大家带来某站弹幕protobuf协议逆向分析,全程高能,在阅读的同时不要忘记点赞+关注哦⛽️

2023-04-23 14:16:17 1740

原创 某游戏社区App | So层逆向分析

加载so、通过native关键字定义了需要调用的方法getSign,也就是说,它这里调用的是so层的加密算法,so是什么?到这里,我们可以肯定,sign的加密算法就是md5加密;分析上面authorization的加密逻辑,我们需要确定return返回值中包含的多个参数的初始值即可完成对该参数的算法还原,接下来我们一起进入hook调试环节分析一下该算法吧。此刻我们已经知道了str、str2的生成规律,我们只需要还原该接口请求就能实现str、str2的参数生成,接下来我们需要对sign参数进行解密分析。

2023-04-11 16:05:35 3074

原创 GoLang - colly爬虫框架

大家好,我是TheWeiJun。很高兴又和大家见面了,国庆假期马上就要结束了,在国庆假期里小编看了下colly框架,故这篇文章中将提到colly的使用及分析;欢迎各位读者多多阅读与交流!特别声明:本公众号文章只作为学术研究,不作为其它不法用途;如有侵权请联系作者删除。 目录一、colly框架简介二、colly特性说明三、爬虫架构对比四、colly框架实战五、colly总结说明一、colly框架简介前言:colly 是 Go 实现的比较有名的一款爬虫框架,而且 Go 在高并发和分布式场景的优势也正是爬虫技术所

2022-12-05 17:00:35 2923

原创 某某网站JS逆向及tls指纹绕过分析

而今天我们要分享的文章中,和提到的这几个类型完全没有任何关联,遇到这样的问题,该如何解决这类型的问题?到此我们已经能够解决Robbers粉丝遇到的问题了,这也让我意识到随着反爬策略的升级,服务端可能会对爬虫最常用的第三方包进行请求指纹检测。看到此处后一下豁然开朗了,可以肯定对方服务端会对请求指纹进行校验,如果是我们刚刚使用的第三方包,都会被服务端给识别到,最后返回身份授权失败错误。,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎加我微信与我交朋友。

2022-11-22 11:20:55 2340 2

原创 某某analysis参数算法分析

某麦analysis参数算法分析

2022-11-03 16:55:49 452

原创 某数5代Cookies生成算法分析

大家好,我是TheWeiJun。某数困扰了笔者许久,终于调试出来了,不枉我熬到深夜,特地放出来流程图希望对读者朋友们有所帮助,在调试某数的过程中建议大家固定一个环境然后使用ast局部进行解除数组混淆和自执行函数混淆(这里推荐下蔡老板的星球,学习ast知识非常给力),除此之外要注意堆栈回溯和变量间的赋值,诀窍是需要哪的关键代码就扣哪,不要把cookies生成无关的代码扣进去!微信搜:逆向与爬虫故事;

2022-10-28 16:56:32 1518

原创 使用nc传输文件,告别async

今天来给大家放个大招吧,平日里我们进行代码部署,同样的机器需要安装各种环境,是不是感觉头大呢?那么欢迎进入今天的课题!带大家认识一个新的命令nc!传输文件演示(先启动接收命令)1)使用nc传输文件还是比较方便的,因为不用scp和rsync那种输入密码的操作了2)把A机器上的一个Python-3.7.11.tar.xz 文件发送到B机器上需注意操作次序,receiver先侦听端口,sender向receiver所在机器的该端口发送数据...步骤1,先在B机器上启动一个接收文件的监听,格式如.

2021-08-31 11:53:09 362

原创 python操作mysql流式读取数据—你没见过的黑科技

终于又和大家见面了!有好久不更新简书笔记了,今天来给大家分享一个大招!在分享之前,大家肯定遇到过mysql读取大量数据的操作吧,我想如果一次性读取大批数据,你的内存肯定撑不住,cpu跑满,或者服务器宕机的可能性都有。那么我们该如何避免呢,我想大多数人会想到分块读取,根据id来设置取值范围!这种方法可行,但是还有一种更好的方法,那就是流式读取法!类似于我们读取视频流信息,今天给大家分享点干货,记得点赞+关注哦!一、mysql流式读取# coding=utf-8from DBUtils.PooledD.

2021-03-16 10:45:00 1288 1

原创 python解析protobuf协议数据

文档介绍:大家在做爬虫解析的时候遇到json、html等数据,那么遇到protobuf类似的数据我们该如何解析呢?我已经给大家整理好代码,请查阅,记得点赞加关注哦。第一种方法import subprocess, redef decode(data): # 如果上传到linux线上服务器,需要chmod+x protoc赋予权限。 process = subprocess.Popen([r'protoc', '--decode_raw'], .

2021-03-10 14:09:40 4566 4

原创 mysql如何让自增id从1开始设置方法(三种方法)

mysql如何让自增id从1开始设置方法第一种如果表中数据没有用。如果直接删除数据,自动增长ID还是不会从1开始的,可以利用“清空数据表”。这样自动增长ID也将会从1开始。清空表的sql如下: truncate table 表名第二种(注意:这个是你通过delete from table 之后 设置的。不然不起作用)如果表中的数据还有用,那么需要从特定的某一个值开始自动增长的话,做法如下比如你想让id从2开始自动增长,sql如下alter table jx_pcmx AUTO_INCR

2021-03-08 21:00:18 27816 4

原创 python读写csv、txt、excel文件

大家做在数据处理的时候,肯定难免会与文件交互,那么对于指定的文件类型,我们如何操作呢?1.python读写csv文件import csv #python2可以用file替代openwith open('test.csv','w') as csvFile: writer = csv.writer(csvFile) #先写columns_name writer.writerow(["index","a_name","b_name"]) #写入多行用writerows writer.wr.

2020-05-22 17:07:35 334

原创 Scrapy抓取新浪微博

项目概述:相信很多小伙伴都有用过新浪微博,因为这是当今很火的一款社交app。正因为这样,我们需要获取新浪微博中每一个用户的信息以及评论、发布时间等来满足公司的需求,获取每日热点、评论量、点赞量等相关信息。如今是一个大数据的时代,得数据者得天下,下面教大家如何抓取新浪微博的数据。####首先需要安装python环境(python2.7以及scrapy+selenium+phantomjs+ch...

2018-10-24 14:23:18 1223 2

原创 Scrapy抓取知乎网站

今天给大家带来如何抓取知乎网站中最新热点栏目中的信息,获取里面的标题、内容、作者、网友评论、点赞量等信息。获取这些数据可以提取我们想要的内容进行数据分析和数据展示,建立一个自己的网站,将获取的内容进行展示!###1.软件安装scrapy+selenium+chrome(详情见我的上一篇文章,这里就不提了)###2.接下来我就直接上代码,并进行一定的详解######1)首先要抓取知乎的数据...

2018-10-24 14:20:47 569

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除