
[007]爬虫系列
文章平均质量分 65
爬虫系列
Zero Ice
编辑&代码艺术
展开
-
[007]爬虫系列 | RPC调用简单示例
一、背景 至于RPC是什么,本篇文章不做详细解答!请自行百度查看。二、效果 远程服务器发送参数,本地客户端调用相关主函数,将返回结果发送给服务器!输入相关变量返回相关Token!!!三、实现本文主要通过Websocket实现RPC调用!3.1编写Websocket服务端process.stdin.setEncoding('utf8');var WebSocketServer = require('ws').Server,wss =...原创 2021-08-12 18:11:49 · 2078 阅读 · 1 评论 -
[007]爬虫系列 | 没有油候&Fiddler如何Hook?!!!
一、找到首次加载的js用源码面板打开二、第一行打断点格式化:三、刷新网页成功断点&执行hook!:代码如下:(function() { 'use strict'; var cookieTemp = ""; Object.defineProperty(document, "cookie", { set:function(val){ if(val.indexOf('BA_HECTO...原创 2021-08-12 11:57:37 · 1055 阅读 · 0 评论 -
[007]爬虫系列 | 浏览器欺骗 - 状态码欺骗
一、背景 有些时候网站开发者为了反爬,会做一些状态码欺骗的处理,【原理如下】:例如:浏览器发送一个请求,获取一个js文件,服务器返回状态码,例如:503等此时浏览器就会按照状态码503给它做相应的处理!!!即:浏览器为了速度,会清缓存!!所以直接search或者response看不到任何东西!!!【如下】二、解决虽然浏览器会清空缓存,那么我们可以通过fiddler抓包查看响应内容即可!!!fiddler不会清掉!!!备注:由于找了挺久,没...原创 2021-08-07 17:00:01 · 522 阅读 · 0 评论 -
[007]爬虫系列 | 如何本地调试 eval ?代码格式化问题 ?转义符问题 ?
一、背景 有些时候,我们遇到一些混淆,里面存在很多eval!!!就一行代码【如下】,难以阅读!!!除此之外还会存在转义符\'等,【如下】那么该如何调试比较好?本文教一个比较好的办法:debugger大法借用浏览器帮忙代码美化!!!二、方法介绍本文以之前写的一篇文章为例子《[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第三题: 访问逻辑 - 推心置腹》分析上面的代码,【如下】var x="div@Expires@@captcha@wh...原创 2021-08-07 15:57:29 · 810 阅读 · 0 评论 -
[007]爬虫系列 | so-json 过本地反调试
一、背景js[最牛加密]:https://www.sojson.com/jsobfuscator.html本文主要介绍如何过:正则防止格式化 禁止控制台输出 死循环 setInterval函数二、正文2.1 禁止控制台调试我们直接将加密后的代码复制到控制台运行,发现直接被debugger!!!那么肯定是因为一些原因被识别出来被调试了!至于什么原因,这里不说明!那我们现在直接从代码运行最上面开始进行调试,【即直接在最顶部加上debugger!...原创 2021-08-07 01:05:08 · 1002 阅读 · 0 评论 -
[007]爬虫系列 | 插桩 - 调试JS代码 - 某度为例
一、背景 有些时候我们想获取某个变量的值,看其如何变化!但是又不想每次都是断点之后在再控制台打印其【太耗时间了!】,哪还有什么办法?那就是插桩!!!二、插桩 本文以某度为例子!实现效果如下:2.1抓包 通过fiddle抓包,然后将想替换的那个js代码复制出来,然后更改代码! 在fiddler中设置替换规则!启动规则:备注:在这里可能会遇到一个问题!如下:此问题,勾选unma...原创 2021-08-05 22:34:15 · 2261 阅读 · 0 评论 -
[007]爬虫系列 | 信息校验型反爬 - 通过Hook找出Cookie生成位置 - 某度为例
一、背景 有些时候会遇见一些Cookie反爬【特指:Cookie与JS结合,客户端生成Cookie,服务器端验证Cookie】。有些时候直接通过search无法找到具体位置【被混淆或者查询结果太多!!如:图1.1】。图1.1 我们该如何快速找到生成位置?!!!Hook! 下面是我通过油猴写的一段Hook!二、代码// ==UserScript==// @name baidu// @namespace ...原创 2021-08-05 10:54:32 · 1181 阅读 · 0 评论 -
[007]爬虫系列 | CSS偏移反爬&SVG映射 - 记录
爬虫的时候注意一下CSS偏移反爬!!!备注:此文章仅仅做记录而已原创 2021-07-04 07:54:44 · 324 阅读 · 0 评论 -
[007]爬虫系列 | Websocket爬虫-某鱼体育为例
一、背景 没怎么试过Websocket进行爬虫过!所以最近了解了一下。因此写了这篇文章!至于Websocket是什么,这里不做详细说明,请自行去百度查阅!该文章主要提供交流学习使用,请勿利用其进行不当行为!如本篇文章侵犯了贵公司的隐私,请联系我马上删除!如因滥用解密技术而产生的风险与本人无关!二、正文2.1调试打开Chrome调试工具,点击network调试面板查看,找到状态为101的请求:备注:status 101:协议切换,响应101即说明服务端...原创 2021-07-03 19:09:41 · 896 阅读 · 2 评论 -
[007]爬虫系列 | 某道翻译逆向解析
一、背景 在我准备继续写某条的下篇文章的时候,忽然有个朋友说某道翻译不知道怎么逆向,那么现在就先来一波某道翻译叭!该文章主要提供交流学习使用,请勿利用其进行不当行为!如本篇文章侵犯了贵公司的隐私,请联系我马上删除!如因滥用解密技术而产生的风险与本人无关!二、正文2.1分析先打开调试工具调试调试:字段初始描述:i: 翻译的词 from、to、smartresult、client、doctype、version、keyfrom、action:...原创 2021-07-03 12:07:18 · 303 阅读 · 1 评论 -
[007]爬虫系列 | 某条加密参数_signature(短)逆向解析
一、背景最近脑子瓦特了,无法专心学习,只能写写逆向了。记得前端时间也有人问过我关于某条_signature参数问题,现在就写篇文章叭。该文章主要提供交流学习使用,请勿利用其进行不当行为!如本篇文章侵犯了贵公司的隐私,请联系我马上删除!如因滥用解密技术而产生的风险与本人无关!备注:本文仅仅分析短_signature参数,长_signature参数下次再解析。二、正文1、找到_signature位置打断点分析:调试器调试很明显_signature参数通..原创 2021-07-02 13:25:46 · 6422 阅读 · 5 评论 -
[007]爬虫系列 | 油猴插件简单编写Hook例子 -- 记录
// ==UserScript==// @name Base64 hook// @namespace http://tampermonkey.net/// @version 0.1// @description try to take over the world!// @author You// @match file:///*// @grant none// ==/UserScript==(function(.原创 2020-12-07 16:20:26 · 1605 阅读 · 0 评论 -
[007]爬虫系列 | Chrome如何处理加密后的源代码?
备注:本篇文章主要是以下类型:解决办法:测试:再次刷新就会发现已经解密:原创 2020-11-03 07:38:22 · 695 阅读 · 0 评论 -
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆 乱码增强(下)
一、备注在阅读此文章前,请先阅读前两篇《[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆 乱码增强(上)》 《[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆 乱码增强(中)》二、分析&汇总前两篇文章分别分析了cookie的生成!!!...原创 2020-10-31 11:04:03 · 20101 阅读 · 4 评论 -
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆 乱码增强(中)
一、备注在阅读此文章前,请先阅读前一篇《[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆 乱码增强(上)》二、找参数来源(二)在前一篇文章中,我们找出了Cookie里面m生成函数,并且封装出来了一个脚本!!!本篇文章我们就来找cookie另外一个属性:RM4hZBv0dDon443M不知道大家还记不记得,我们前一篇中有找到一段代码:由这一段代码生成的:$_ow = ""; for (var h = 0; h < w..原创 2020-10-29 22:35:19 · 1245 阅读 · 1 评论 -
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆 乱码增强(上)
一、备注由于此题目比较复杂(个人感觉哈!大佬别喷!),所以博主分析了一个上午,也就只能得出m的生成,所以还是分两天写吧!!!二、题目http://match.yuanrenxue.com/match/5三、分析按照前面几题习惯:抓包一看究竟!!!分析发现每页请求拿的都是同一个cookie&参数!!!如果cookie过期了那么就会返回400!!!那么 我们现在首先直接通过postman模拟请求一下:我们发现其实第一页似乎并没有反爬的操作!!!...原创 2020-10-29 16:51:46 · 12938 阅读 · 4 评论 -
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第四题: 雪碧图、样式干扰
一、题目http://match.yuanrenxue.com/match/4二、分析2.1抓包分析按照习惯,一开始直接抓包:2.2模拟请求通过postman模拟请求:都很顺利!!!很明显此题考点都不在上面!也很明显的是:图片转 数字!!!2.3图片转数字我们先写python代码获取上面的返回值先吧(格式化)!import requestsimport jsonimport reurl = 'http://match.yuanrenxue...原创 2020-10-28 17:20:44 · 13542 阅读 · 2 评论 -
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第三题: 访问逻辑 - 推心置腹
一、题目《猿人学爬虫攻防大赛 | 第三题: 访问逻辑 - 推心置腹》二、分析抓包一看究竟通过postman模拟请求发现,他返回一段脚本:通过代码美化&分析后发现:其实这个就是一个蜜罐!!!啥用处也没有!!!那么现在我们分析一下Cookie,我们发现存在一个sessionid字段:但是为什么使用postman直接请求没返回数据呢?都已经模拟整个头部了!后来仔细看看!!!发现每次请求数据之前都会请求http://match.yuanrenxue.c...原创 2020-10-28 14:29:29 · 1326 阅读 · 4 评论 -
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第二题: js 混淆 - 动态Cookie
一、题目链接:http://match.yuanrenxue.com/match/2二、分析按照以往习惯,我们先按F12打开控制台,Network抓包,勾选preserve log保留日志,并且开启无痕模式,F5刷新进行抓包由于题目标明考点是动态Cookie,我们直接从Cookie入手...原创 2020-10-28 10:28:41 · 1436 阅读 · 0 评论 -
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第一题: js 混淆 - 源码乱码
一、备注最近实在是无聊,看书也看不进去,还是写写博客消遣一下时间吧!!!二、题目 链接:http://match.yuanrenxue.com/match/1 三、分析3.1去debugger一进去,打开调试(F12),进入debugger,为了接下来的分析,直接禁用debugger后F5刷新!!!3.2抓包分析刷新几次,发现每次只有请求字段m不一样!!!也就是说,咱们只要知道m怎样生成的就可以解决此题!!!3.3栈跟踪...原创 2020-10-27 17:57:55 · 1976 阅读 · 5 评论 -
[007]爬虫系列 | 代理IP池 & UA池 构造
目录一、背景代理IP池二、UA代理池2.1资源准备2.2头部生成2.3请求三、代理IP池2.1抓取代理IP2.2测试代理IP可用性2.3存储数据四、代理IP池使用完!!!一、背景在爬虫的时候,可能IP会被封掉!!!怎样子才能解决此问题呢?代理IP池由于题目的原因,我想先给大家看看,UA代理池是如何实现的!!!二、UA代理池2.1资源准备首先准备一个列表存放多个UA:# 用户代理池agent = [ '..原创 2020-06-22 13:20:13 · 1167 阅读 · 2 评论 -
[007]爬虫系列 | DNS篇(一)
一、备注:以下所有图片均来自RFC和Wireshark截图 报文均由WireShark抓取所得二、DNS主要组成 Header 头部 Question DNS请求 Answer 回答请求的资源记录 Authority 指向域的资源记录 Additional ...原创 2020-03-13 14:45:31 · 1267 阅读 · 0 评论 -
[007]爬虫系列 | WireShark如何解密TLS消息?
一、原理通过Chrome浏览器DEBUG日志中的握手信息生成密钥二、操作步骤2.1配置Chrome输出日志配置环境变量SSLKEYLOGFILE注意:必须得关闭Chrome浏览器,重新打开,让日志文件输出!!!查看txt文件里面有没有东西生成!!!2.2配置解析DEBUG日志打开Wireshark->编辑->首选项三、检验这...原创 2020-03-15 09:01:21 · 951 阅读 · 5 评论 -
[007]爬虫系列 | \u 和 &#x 引起的一系列问题
一、背景爬虫的朋友,也许或多或少都遇见过以下问题:昨天晚上,一个朋友突然给我发上上面的截图,并询问:1.1引出问题1为什么解码不行?在此引入一篇文章《字符串和编码》浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:Unicode是什么?Unicode不是编码格式,而是字符集。这个字符集包含了世界上目前所有的符号。另...原创 2020-03-28 12:13:17 · 1336 阅读 · 0 评论 -
[004]爬虫系列 | 中文编码问题
scrapy crawl mininova -o scraped_data.json -s FEED_EXPORT_ENCODING=UTF-8原创 2020-05-03 17:11:50 · 196 阅读 · 0 评论