
爬虫
文章平均质量分 78
Hares_
分享日常学习笔记
展开
-
selenium网络爬虫去哪儿机票利用performance获取日志截获加载的xhr,ajax,js等数据
页面获取后发现是经过ob混淆的页面源代码,处理起来难度又更高了(最后总结发现并非全部混淆只是哈有ob混淆的代码就以为运用上了),最后几经思考了解到利用日志定位到页面加载的数据从而获取加载过了什么数据,等于抓包软件抓取的原理。(虽然后面发现可以定位页面获取想要的数据并没有ob混淆只是部分运用了,但获取请求的返回更高效不需要翻页请求一次获取全部内容,并且摸索学会了新的爬取技术)成功获取到数据,因为此网站的数据是直接返回所有当天的所有机票数据,所以更方便不需要跳转页面来获取,只需要对数据进行提取即可!原创 2022-12-21 15:38:29 · 2526 阅读 · 0 评论 -
selenium模拟浏览器解决反监测,获取cookies解决登录问题
网络上设立了许多各种反爬的监测各式各样,但并不会非常的深入,如果要仔细获知应用了什么监测需要在控制台全局搜索webdriver去逆向分析一下再去设置将selenium伪装。接着就是遇到需要登录的操作,部分网站没有登录是不允许加载出请求等,这种情况只需要获取cookies然后再载入到selenium即可。在载入cookies前要先载入一下页面再加入cookies,加入后要在网站刷新才会生效。(功能约束貌似没办法解决)上面操作基本上满足市面上大部分反监测上的应用伪装按需添加即可。原创 2022-12-20 18:28:48 · 2260 阅读 · 0 评论 -
scrapy实现分布式爬虫以及布隆过滤器,scrapy-redis所遇到的问题,终端进入虚拟环境
记录一下scrapy实现分布式爬虫以及布隆过滤器的使用:所用版本: pip install scrapy==2.5.1 pip install scrapy-redis==0.7.2 版本问题,有的版本过高会导致scrapy-redis无法正常使用,卸载安装过的库只需要执行命令pip uninstall scrapy即可卸载其他同理。 报错:from collections import Iterable Im原创 2022-11-05 21:30:14 · 977 阅读 · 0 评论 -
js逆向播放量增加,增加视频热度,uuid,sid,buvid3,aid,b_lsid, b_nut 还原实现过程
本次记录尝试你想某视频平台播放量:主要思路:(不断debug,观察代码设计还原实现)1.播放量增加必定是点击播放后的记录2.清空监视器,点击播放开始debug,截取到的就代表包含了增加播放量的包3.验证截取到的包,测试看哪一个是包含增加播放量的4.还原模拟发送请求浏览器逆向debug没有捷径只能不断练习找感觉。懂Java、js越多越好,虽然看的都是经过混淆的代码,但还是能看到实现的过程(本人也还在学习阶段)测试了超级久太多内容了,这里我也就只能记录还原实现的过程吧。原创 2022-11-03 19:27:07 · 1737 阅读 · 0 评论 -
网络爬虫js逆向解决网站登录RSA加密问题,不使用selenium如何实现登录,session维持登录状态请求爬取
记录中大网校破解登录后爬取的方法:使用工具:打码平台(超级鹰)分析此请求,得知没有data,保持状态登录需要服务器知道是这个用户对应请求的相应验证码,所以要用session来维护状态获取到后验证码保存下来。原创 2022-11-01 22:25:51 · 1612 阅读 · 5 评论 -
股市数据采集js逆向解决hexin-v cookie 解决失效后自动更新复刻核心算法
股票js逆向,全解析,js调用实现无限次数请求原创 2022-11-01 11:34:14 · 3607 阅读 · 16 评论 -
enicode字体反爬,大厂使用的反爬技术,结合OCR处理页面源代码
爬虫学习日常记录:enicode反扒技术练习网址:大众点评OCR使用:百度智能云字体识别。原创 2022-10-29 20:51:49 · 1536 阅读 · 0 评论 -
爬虫js逆向获取信息,有道翻译逆向{‘errorCode‘: 50}及UA错误
有道翻译,js逆向,报错相关记录原创 2022-10-12 00:06:30 · 696 阅读 · 0 评论 -
selenium 4.3.3鼠标定位move_to_element_with_offset定位问题,超级鹰解决文字点击验证码
python爬虫,selenium、超级鹰处理b站验证码以及遇到的问题原创 2022-09-01 15:45:11 · 4673 阅读 · 7 评论