
爬虫
文章平均质量分 83
徒余途
on the way,to my destination!
展开
-
92+版本chorme浏览器cookie获取
参考的文章后面没有找到,整合了解密部分,只能读取数据。因此,直接上代码测试最新的chorme浏览器版本:92.0.4515.131相关文章如何使用Python获取Chrome cookieimport sqlite3import os, sysimport json, base64from cryptography.hazmat.backends import default_backendfrom cryptography.hazmat.primitives.ciphers import原创 2021-08-10 11:13:46 · 568 阅读 · 1 评论 -
m3u8文件下载及合并
碰到m3u8的视频文件下载,记录一下m3u8文件头这是此处碰到的m3u8文件头#EXTM3U#EXT-X-TARGETDURATION:12#EXT-X-MEDIA-SEQUENCE:0#EXT-X-KEY:METHOD=AES-128,URI="https://p.bokecc.com/servlet/hlskey?info=F6EB72345C630C919C33DC5901307461&t=1605431808&key=ED9AE821A4D0439E03533D32FB6原创 2020-11-15 17:19:07 · 4269 阅读 · 0 评论 -
极验验证码的处理
碰到极验验证码的问题参考文章:Python爬虫 | 滑动验证码破解但是该文章中的滑动轨迹不适应我的项目,之后参考破解极验(geetest)验证码整个处理的流程:分析使用selenium模拟操作,直到弹出极验验证码对验证码进行切图处理,共三张图片(有可能需要进行js操作)进行图片像素比对,这里有两个参数可能需要进行调整:(1) 比对像素时可以跳过的像素列数(如60)(2) 像素误差容忍值(这里是60,未修改)根据项目对滑块需要滑动的距离进行调整计算滑动轨迹(我这里使用比较老版本的方案反原创 2020-06-04 16:01:40 · 558 阅读 · 0 评论 -
js中pbkdf2_hmac加密python翻译
加密js代码import hashlibimport base64import hmacimport binasciiimport jsonimport refrom Crypto.Cipher import AESfrom binascii import a2b_hex# url加密代码""" f = o.default.HmacSHA1(o.default.enc.Utf...原创 2020-04-20 16:12:39 · 1329 阅读 · 2 评论 -
获取微信公众号文章
第一种通过普通api接口获取第二种通过公众号平台接口获取原创 2020-04-12 17:03:15 · 1130 阅读 · 0 评论 -
python appium操作app
环境配置参考文章:python鬼才利用appium实现手机APP自动化!下载源参考:win10环境下,appium和python3的安装和配置node.js下载:官网jdk下载:华军软件园android下载:http://tools.android-studio.org/index.php/sdk/appium下载:下载之家 Appium 官方版v1.8.0我安装的时候...原创 2020-01-17 11:23:10 · 449 阅读 · 0 评论 -
httpCanary app抓包
通用情况的抓包使用 fildder + vpn代理 在同一个局域网内进行抓包分析但是有的手机app对这种模式进行了反爬,当发现vpn代理时,就会无反应,显示connect close因此不能使用此模式解决方案:我要抓包分析的app是:完美志愿app采用的组合:雷电模拟器 + httpCanary + MT管理器因为MT管理器需要root权限,最好使用模拟器进行抓包安装雷电模拟器:官...原创 2020-01-14 20:41:59 · 12743 阅读 · 1 评论 -
python爬虫-教你js解密
该文章是在工作碰到的需要js破解的网站,记录下破解过程。目标网站:优志愿 当然此网址需要vip账号完美志愿 很多数据也需要vip账号优志愿分析请求请求参数是经过加密的,因此需要分析发送请求的过程。ajax请求分析2.1 开启ajax断点2.2 点击按钮后会进入调试模式,一直按 F10 键,跑完一次请求,并观察。2.3 发现请求参数,然后在其前面打断点(下...原创 2019-12-29 16:59:43 · 2333 阅读 · 6 评论 -
python爬虫-字体反爬全流程(woft文件-转换字体-字体图片-图片识别全流程)
python字体反爬https://www.cnblogs.com/xiang-wu/p/11603426.htmlhttps://blog.youkuaiyun.com/hacklyc/article/details/77101965http://ftp.acc.umu.se/pub/GNOME/binaries/win64/gtk+/2.22/https://blog.youkuaiyun.com/oatne...原创 2019-12-01 15:56:56 · 1695 阅读 · 0 评论 -
爬虫反爬措施应对
爬虫反爬措施应对请求头headersuser-agent: fake_useragentcookie:referer检测cookie池维护及调度GitHub 开源项目 https://github.com/Python3WebSpider/CookiesPool爬取频率限制由于爬虫发起请求的频率过大,给服务器造成压力,影响正常经营按一个周期时间内的频率限制,先测试周期...原创 2019-11-19 16:38:14 · 663 阅读 · 0 评论 -
scrapy框架
Scrapy 框架安装scrapypip install scrapy安装问题:如果遇到 twsited 安装失败,需要手动安装,如果安装64位失败,需要安装32位https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted缺少win32api:pip install pywin32 #安装pywin32之后运行,进行验证安装是否成...原创 2019-11-19 16:13:49 · 196 阅读 · 0 评论 -
python 爬虫
Python 爬虫可能用到的工具requests 发送请求 其基础为 urllib2 urllib3re 正则lxml xpath解析 from lxml import etreejson jsonpath(不常用) from bs4 import BeautifulSoup (不常用)selenium 用于模拟浏览器 from sel...原创 2019-11-19 15:47:26 · 348 阅读 · 0 评论 -
python反爬--post参数处理
背景在实际生产者中,爬虫工程师抓包会碰到get请求转为post请求。但是,直接使用浏览器中的参数还是不能解决问题。实例场景河北公共资源交易网:网址在获取交易公告和成交公告的列表页时就是发送post请求模拟测试:import requestsurl = 'http://ggzy.hebei.gov.cn/inteligentsearch/rest/inteligentSearch/...原创 2019-08-27 11:23:49 · 992 阅读 · 1 评论 -
python爬虫--URL部分加密破解
URL部分加密破解背景说明示例及分析解决方案注意背景说明最近在爬取网站数据时,碰到提取到的a标签的url与真实的url地址不同,将a标签中的部分内容进行了加密处理,再拼接处理,拿到真实的url,进行访问。示例及分析a标签: a标签href属性http://www.sdggzyjy.gov.cn/jsgczbgg/2803000.jhtml真实url:真实地址http://www.sd...原创 2019-07-28 15:53:40 · 5487 阅读 · 0 评论