- 博客(7)
- 收藏
- 关注
原创 最全爬虫面试题
核心组件:Engine(引擎)、Scheduler(调度器)、Downloader(下载器)、Spiders(爬虫)、Item Pipeline(管道)以及 Downloader/Spider 中间件。引擎负责协调各部分的数据流,调度器负责管理请求队列,下载器负责获取网页内容,爬虫负责解析页面和生成数据,管道负责后续的数据处理(如清洗、保存),中间件则可以在请求与响应的路径中插入自定义逻辑。文本验证码、图像验证码、旋转验证码、行为验证码、滑动验证码。Scrapy 的异步模型是如何工作的?
2025-05-21 01:24:43
2058
原创 云xx视频m3u8格式分析
直接右键点击查看源代码搜索m3u8。我们发现他是以加密的方式直接放到html中的。所以,只需分析index.m3u8接口即可。那他是怎样构建的呢?格式的视频文件,一段一段的网站上播放。目的是观看更加流畅。在把这个值复制到url解码中就得到想要的东西了。一:点击播放一部影片发现是m3u8格式传输。,将一段视频切成若干个小段,这几个小段就是。m3u8:现在的大部分视频网站的是。这里只展示py解m的函数。
2025-04-15 19:41:41
641
1
原创 最新分析G国税务发票查验参数(附成品展示)
找到: 'key9': _0x21185e['nnyd']["\u0063\u0079"](_0x2a4b25, _0xcfa3de, _0xb58562)二:找到fpcy.guangdong.chinatax.gov.cn/NWebQuery/yzmQuery验证码查询信息接口。提供key9参数生成,flwq39参数生成,验证码识别。一:打开f12发现无限debug。鼠标右键点击“一律不再此处执行”。时间:25年4月11日。版本:2.0.21_070。三:分析key9和flwq39加密参数。
2025-04-11 11:46:10
413
1
原创 深入理解JavaScript原型链与补环境
2)当访问一个对象的属性或者方法时,如果找不到,就会沿着_proto_属性往上找,直到找到或找到源头(null)伪造一个假的浏览器环境。让代码误以为自己真的在浏览器中执行。你的家谱:你 → 父母 → 祖父母 → 外祖父母 → ... → 最终到“祖先”1)每个对象都有一个隐形的_proto_属性来指向父辈对象(及原型)puppeter、控制真实的 Chrome 浏览器,避免补环境的麻烦。在 Node.js 中模拟浏览器的 DOM 环境。在js中,对象的原型链就好像家谱链一样。qiw一:什么是原型链。
2025-04-03 15:28:28
183
原创 从零开始实现K音乐获取:分析与加密参数
encode_album_audio_id为歌曲的id(一般在首页就返回id列表)signature则为加密参数。打完断点刷新发现断在了 l.signature = d(s.join(""))位置。通过浏览器控制台打印s和s.join("")发现s是个列表,s.join("")把列表变为字符串。调用d函数返回是一个0-9,a-z的32字符串。本文将以K音乐平台为例,详细讲解如何通过抓包分析与加密参数实现音乐资源的批量获取,整个过程涉及前端调试、加密算法等关键技术点。调用d函数,返回加密参数。
2025-04-01 11:07:20
346
2
原创 无广告爬取某度数据
注:selector不可直接通过浏览器右键解析转义,BeautifulSoup不支持CSS选择器中的:nth-child()伪类。需要手动处理层级关系。打开f12发现某度的数据是直接在html中,可通过提取seletor来直接获取数据。工具:request、beautifulSoup。第一步:构造请求(request)头部信息可通过网络抓包获取。url从浏览器信息栏获取。
2025-03-24 16:16:24
249
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人