
python爬虫进阶
python爬虫进阶
jia666666
生活本无趣,有趣的是人
展开
-
python爬虫进阶-每日一学(GIF验证码识别)
gif验证码识别原创 2023-12-26 13:02:26 · 1738 阅读 · 1 评论 -
python爬虫进阶-每日一学(tls指纹)
python3 过tls指纹反爬原创 2023-05-19 16:21:35 · 3308 阅读 · 0 评论 -
python3爬虫进阶js逆向学习(十二)
目的目的:JS逆向的学习与交流目标:分析去哪儿m参数目标网址:https://m.flight.qunar.com/h5/flight/// 若有侵权,请联系作者删除,谢谢!思路分析一、内容概览二、请求参数分析#!/usr/bin/env python# -*- coding: utf-8 -*-# Author : jia666# Time : 2021/7/12 15:21import timeimport hashlibdef get_原创 2021-07-12 18:55:08 · 975 阅读 · 2 评论 -
python3爬虫进阶JS逆向学习(十一)
目的目的:JS逆向的学习与交流目标:分析咪咕音乐参数目标网址:https://music.migu.cn/v3// 若有侵权,请联系作者删除,谢谢!思路分析一、内容概览二、请求参数分析原创 2021-07-12 10:47:01 · 992 阅读 · 0 评论 -
python3爬虫进阶JS逆向学习(十)
目的目的:JS逆向的学习与交流目标:分析抖音sign参数目标网址:https://www.amemv.com/share/user/94508298369?sec_uid=MS4wLjABAAAAlCk0D9y9kFybWrD_06F-G7vrujt75VqTD25RImgRtyE// 若有侵权,请联系作者删除,谢谢!思路分析一、内容概览二、加密参数分析三、js扣取技术太菜,扣了一天,也没扣好,调试没通过............发现了大佬两年前扣好的js,就直接原创 2021-07-07 18:27:27 · 1310 阅读 · 2 评论 -
python3爬虫进阶JS逆向学习(九)
目的目的:JS逆向的学习与交流目标:分析猿人学js解密目标网址:http://match.yuanrenxue.com/match/1// 若有侵权,请联系作者删除,谢谢!思路分析一、内容概览思路分析:1.发送一次请求,需要获取加密参数m2.变更请求页码即可请求不同的数据3.唯一的难点是加密参数m的生成二、加密参数分析三、JS扣取//字符串 Base64 编码函数function Base64encode(str) { return Buffer.fr原创 2021-07-06 18:55:58 · 14042 阅读 · 0 评论 -
python3爬虫进阶JS逆向学习(八)
目的目的:JS逆向的学习与交流目标:分析猿人学js解密目标网址:http://match.yuanrenxue.com/match/16// 若有侵权,请联系作者删除,谢谢!思路分析一、内容概览思路分析:1.发送一次请求,需要获取两个参数,m与t2.变更请求页码即可请求不同的数据3.唯一的难点是加密参数m的生成二、加密参数分析三、JS扣取function d(e) { l = "ABCDEFGHJKMNPQRSTWXYZabcdefhijkmn原创 2021-07-06 18:30:59 · 686 阅读 · 2 评论 -
Python3爬虫进阶JS逆向学习(七)
目的目的:JS逆向的学习与交流目标:分析小说js字体反爬目标网址:https://g.hongshu.com/content/93416/13877912.html// 若有侵权,请联系作者删除,谢谢!思路分析一、内容概览通过比较以往的字体反爬,发现均不是,有兴趣可查看下列字体反爬--------------------------------------------python爬虫进阶-大众点评店铺信息(字体反爬-静态映射)https://jia666666.blog.csdn.n原创 2021-07-02 17:14:53 · 631 阅读 · 5 评论 -
Python3爬虫进阶JS逆向学习(六)
目的目的:JS逆向的学习与交流目标:分析某麦数据网站中加密参数analysis目标网址:https://www.qimai.cn/rank// 若有侵权,请联系作者删除,谢谢!思路分析一、内容概览思路分析:1.一共有三个榜单,每个榜单发送一次请求2.每个请求均含有加密参数analysis3.唯一的难点是加密参数的生成二、请求参数分析JS扣取1.断点步进,查看加密参数生成依赖的函数与参数2.在理解的基础上,进行适当删除不必要的js3.需要的参数未知可以在控制台中查询原创 2021-07-01 18:16:39 · 608 阅读 · 4 评论 -
Python3爬虫进阶JS逆向学习(五)
目的目的:JS逆向的学习与交流目标:分析某云音乐网站中加密参数目标网址:https://music.163.com/思路分析一、内容概览二、请求参数分析#!/usr/bin/env python# -*- coding: utf-8 -*-# Author : jia666# Time : 2021/6/21 11:30import randomfrom Crypto.Cipher import AESfrom binascii import hexl原创 2021-06-24 17:33:38 · 541 阅读 · 1 评论 -
Python3爬虫进阶JS逆向学习(四)
目的目的:JS逆向的学习与交流目标:分析某Q音乐网站中加密参数目标网址:https://y.qq.com/注意:需要登录思路分析一、内容概览思路分析:1.发送请求,搜索指定歌曲。2.对返回的歌单列表,选择其中一个歌曲,提取songmid参数3.基于2中提取的参数,进行二次发送请求4.对二次请求返回的数据提取歌曲下载链接二、请求参数分析get_searchid.jsfunction ve(e, t) { for (var n = "".concat(e).原创 2021-06-24 16:17:46 · 534 阅读 · 0 评论 -
Python3爬虫进阶JS逆向学习(三)
目的目的:JS逆向的学习与交流目标:分析某我音乐网站中加密参数目标网址:http://www.kuwo.cn/思路分析一、内容概览思路分析:1.发送请求,搜索指定歌曲。2.对返回的歌单列表,选择其中一个歌曲,提取rid参数3.基于2中提取的参数,进行二次发送请求4.对二次请求返回的数据提取歌曲下载链接二、请求参数分析1.全局搜索reqId并没有找到有关js文件2.搜索请求链接中含有的关键词searchMusicBykeyWord需要说明下1.酷我是不验原创 2021-06-24 12:40:06 · 1006 阅读 · 3 评论 -
Python3爬虫进阶JS逆向学习(二)
目的目的:JS逆向的学习与交流目标:分析某狗音乐网站中加密参数目标网址:https://www.kugou.com/思路分析一、内容概览思路分析:1.发送请求,搜索指定歌曲。2.对返回的歌单列表,选择其中一个歌曲,提取hash参数与album_id参数3.基于2中提取的参数,进行二次发送请求4.对二次请求返回的数据提取歌词与歌曲下载链接与歌曲名称二、请求参数分析三、流程梳理1.发送第一次请求,传入歌曲名称,构建请求参数,生成加密参数2.对第一次请求返回的数原创 2021-06-24 10:33:23 · 594 阅读 · 0 评论 -
python3爬虫进阶JS逆向学习(一)
目的目的:JS逆向的学习与交流目标:分析某千音乐网站中sign参数目标网址:https://music.taihe.com/思路分析一、内容概览思路分析:1.发送请求,搜索指定歌曲。2.对返回的歌单列表,选择其中一个歌曲,提取Tsid参数3.基于2中提取的参数,进行二次发送请求4.对二次请求返回的数据提取歌词与歌曲下载链接与歌曲名称难点:参数构造中,唯一存在难点的就是sign的生成二、请求参数分析三、注意1.唯一难点是sign的生成,已经克服2.发送了两个原创 2021-06-24 09:27:26 · 898 阅读 · 4 评论 -
python爬虫进阶-每日一学(图片反爬-雪碧图-2)
目的了解熟悉雪碧图反爬策略详细需求url:http://glidedsky.com/level/crawler-sprite-image-2思路解析一一、审查二、分析[雪碧图-1](https://jia666666.blog.youkuaiyun.com/article/details/109199875)如果你看过雪碧图-1,你就会发现,这里的每个数字都是通过x,y坐标及高度宽度的值来实现映射的举例说明接下来需要用到图片切割+OCR图片识别参考:图片反爬-雪碧图https:原创 2020-12-30 18:18:32 · 723 阅读 · 0 评论 -
python爬虫进阶-每日一学(滑块拼图)
目的学习更多的python反爬虫策略详细需求url:http://glidedsky.com/level/web/crawler-captcha-1思路解析一、详情查看二、准备在这里插入代码片原创 2020-11-06 16:26:15 · 3152 阅读 · 1 评论 -
python爬虫进阶-每日一学(JS加密)
目的分析JS详细需求http://glidedsky.com/level/web/crawler-javascript-obfuscation-1思路解析一、F12二、解析三、断点调试原创 2020-11-03 17:54:51 · 548 阅读 · 0 评论 -
python爬虫进阶-每日一学(字体反爬-移花接木)
目的分析与学习更多的字体反爬套路详细需求url:http://glidedsky.com/level/web/crawler-font-puzzle-2思路解析一、审查二、分析import base64from fontTools.ttLib import TTFontfont_face="AAEAAAAKAIAAAwAgT1MvMo8A6VIAAAEoAAAAYGNtYXAtCKrLAAACVAAAA0xnbHlm2H8rpwAABmwAAEq2aGVhZBpfEugAAACs原创 2020-10-26 11:19:48 · 24904 阅读 · 0 评论 -
python爬虫进阶-每日一学(CSS反爬-偏移+混淆)
目的了解更多的css反爬策略详细需求url:http://glidedsky.com/level/web/crawler-css-puzzle-1思路分析一、审查二、分析以上三种情况可以自由结合:1.css混淆+css偏移2.css混淆+before处理等等三、具体逻辑有点懒,见源码四、汇总1.请求源网页2.正则获取col-md-1每组数据3.获取每组数据下的所有cls为列表4.cls列表值判定处理,根据判定结果进入CSS处理逻辑或者before处理逻辑5原创 2020-10-23 18:08:51 · 749 阅读 · 0 评论 -
python爬虫进阶-每日一学(图片反爬-雪碧图)
目的了解熟悉雪碧图反爬策略详细需求url:http://glidedsky.com/level/crawler-sprite-image-1思路解析一、审查二、分析通过观察雪碧图,发现数字有大有小,那么是否有不一样的逻辑呢小数字处理大数字处理首先,我们知道css限定了宽高,通过观察,发现高相同为15px,那么如何才能表现为大呢,那么只有宽数值越大,字体显示越大三、汇总1.源网页请求2.获取css链接3.正则提取所有类及宽高位置信息4.雪碧图的值是固定的为0原创 2020-10-21 14:44:51 · 2597 阅读 · 0 评论 -
python爬虫进阶-每日一学(字体反爬-真假李逵)
目的熟悉更多的字体反爬策略详细需求本文以其中一个为案例推荐一个爬虫学习网站:http://glidedsky.com/url:http://glidedsky.com/level/web/crawler-font-puzzle-1思路解析一、F12二、字体源查看-保存本地#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : jia666# @Time : 2020/10/21 11:12import bas原创 2020-10-21 12:42:20 · 835 阅读 · 0 评论 -
python爬虫进阶-自如租房信息(CSS反爬)
目的分析学习CSS反爬并得到正确的信息详细需求http://sz.ziroom.com/z/思路解析一、F12二、分析三、复制url,浏览器打开查看四、映射字符五、汇总1.源网页请求2.正则获取png链接3.请求png本地保存,OCR技术识别为列表4.字符映射5.提取文本------------------------完成...原创 2020-10-20 15:35:10 · 648 阅读 · 0 评论 -
python爬虫进阶-SVG映射反爬虫
目的破解SVG解密的字符,得到正确的字符练习平台http://www.porters.vip/confusion/food.html思路解析一、SVG的具体表现二、CSS文件三、svg四、举例详解这里选择图一为例:已知:类名:vhkjj4坐标:(-316px -141px)----取正整数则为(316,141)可以自行选择其他类名进行尝试源码#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : jia原创 2020-10-19 17:55:10 · 1680 阅读 · 1 评论 -
python爬虫进阶-1688工厂信息(JS逆向-sign签名验证)
目的获取1688工厂名片的相关信息详细需求一、进入1688网站https://www.1688.com/二、使用“工厂”这个搜索框三、输入工厂名称进行搜索,如“深圳市杰之美时装有限公司”四、返回搜索结果,并获取逐个店铺/工厂的连接五、获取有关数据思路解析一、搜索关键词,获取返回网页中的工厂ID二、链接拼接-进入工厂名片详情页三、目标信息定位四、模拟构建请求这里的难点就是sign值的获取五、思路汇总1.请求工厂关键词-解析得到工厂ID2.需要进原创 2020-10-19 15:11:08 · 6189 阅读 · 5 评论 -
python爬虫进阶-同城旅游酒店评价(JS逆向)
目的获取同城旅游酒店评价信息详细需求https://www.ly.com/HotelInfo-52003119.html?spm0=10002.2001.1.0.1.4.31思路解析一 、F12从这里已经知道数据的获取方式,请求链接--返回数据--提取数据,这里需要做的就是构建请求二、请求分析三、js调试到此,所有需要的参数都已经找到了,那么根据需要进行改写本地js调试四 本地JS调试function token(e) { var a56 =原创 2020-10-10 15:15:36 · 1158 阅读 · 0 评论 -
python爬虫进阶-汽车之家贴吧信息(字体反爬-动态映射)
目的获取汽车之家贴吧的内容信息详细需求汽车之家贴吧思路解析一、F12获取目标信息-进行分析二、字体反爬解析-根据上一篇的文章,直接搜索关键词就好三 根据其后的链接,保存为ttf在本地,查看TTF字体映射字体工具:FontCreatorPortable,自行百度下载安装在线工具:http://fontstore.baidu.com/static/editor/index.html分析:汽车之家字体反爬:1.字体编码与文字皆为动态变换2.文字为固定数目3.每个贴子均有不原创 2020-10-09 11:37:01 · 2142 阅读 · 1 评论 -
python爬虫进阶-大众点评店铺信息(字体反爬-静态映射)
目的获取大众点评店铺信息详细需求http://www.dianping.com/shenzhen/ch10思路解析一 通过F12查找目标信息位置,进行分析同理进行其他信息的解析,分析汇总店铺名称:源网页获取商家评分:源网页获取评价:人均:口味: 环境:服务:标签: 地址:源网页获取推荐菜:源网页获取二 字体反爬解析三 根据其后的链接,保存为ttf在本地,查看TTF字体映射字体工具:FontCreatorPortable,自行百度下载安装在线工具:ht原创 2020-09-30 15:46:06 · 2380 阅读 · 3 评论