自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 【基于深度学习的验证码识别】---- part3数据加载、模型等API介绍(2)

一个数学函数或算法,能够从输入数据中提取特征并生成输出。通过训练过程,模型能够学习数据中的规律(如分类、回归、聚类等)。训练完成后,模型可以用于对新数据进行预测或决策。模型类型特点适用场景DNN全连接结构,适合处理结构化数据。分类、回归任务。CNN卷积结构,适合处理图像、视频等空间数据。图像分类、目标检测、图像分割。RNN循环结构,适合处理序列数据。自然语言处理、时间序列预测。LSTM/GRURNN 的改进版本,解决梯度消失问题,适合处理长序列数据。长文本生成、复杂时间序列预测。

2025-03-18 23:16:24 1037

原创 【基于深度学习的验证码识别】---- part3数据加载、模型等API介绍(1)

操作作用Resize调整图像大小。CenterCrop从图像中心裁剪指定大小的区域。RandomCrop随机裁剪图像。随机水平翻转图像。随机旋转图像。随机改变图像的亮度、对比度、饱和度和色调。Grayscale将图像转换为灰度图。ToTensor将图像转换为张量,并缩放到 [0, 1]。Normalize对图像进行标准化处理(减去均值,除以标准差)。Compose将多个操作组合成一个流水线。

2025-03-18 01:18:56 929 2

原创 主流爬虫框架scrapy的架构及原理

通过哈希算法(如 sha1)生成请求的唯一指纹,存储于内存或数据库(如 scrapy.dupefilters.RFPDupeFilter)。Downloader Middlewares:拦截请求和响应(如更换 User-Agent、处理代理)。可修改 Spider 的输入(如过滤重复 Item)或输出(如修改 Request 参数)。Spider Middlewares:处理 Spider 的输入和输出(如过滤无效请求)。处理 Spider 提取的 Item(如数据清洗、存储到数据库)。

2025-02-20 23:54:41 747

原创 Conda操作使用教程

Conda 的核心功能是环境隔离和包管理。通过虚拟环境,可以为不同项目分配独立的依赖。使用 **environment.yml **文件能快速复现环境,适合团队协作。遇到问题时,优先查阅官方文档:Conda Documentation.

2025-02-15 21:04:44 290

原创 Docker入门(自用版)

声明:该文章仅为学习使用,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!如有侵权,请私信联系本人删帖!

2025-02-13 23:39:07 316

原创 某红书x-s参数

声明:该文章仅为学习使用,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!如有侵权,请私信联系本人删帖!

2025-02-12 00:06:11 860 5

原创 某红书加密参数分析

分析加密参数,长度514,猜测可能是使用“fromCharCode”方法生成的,在全局进行搜索,总共有四处使用该方法,打断点,查看结果。未完成··· ···该处作者能力有限,实在不知道该如何生成,抛砖引玉了,期待大佬能够回复。登录采集,通过手机号接收短信验证码登录,采集小红书主页发文内容。该参数分为两部分:前三位+511位,总共生成514位的字符串。生成结果基本一致,可以确定该处就是生成x-mns参数的位置。需要解决以上6个参数的加密过程。直接在该处调试扣代码即可。随便一搜就有,直接奉上源码。

2025-02-11 22:40:18 1059 22

原创 蓝厂短视频采集

1.首先下载charles(官网下载地址:https://www.charlesproxy.com/latest-release/download.do),进行代理设置,在手机上安装证书,确保能抓到https请求。因为发现加密参数生成过程中,调用了.so文件,暂时还无法解决,所以决定使用rpc方式进行参数生成。笔者电脑上没有app采集环境,所以本次从0开始介绍,但只会介绍大致流程,详细可参考其他文章。2.使用相同的关键词进行多次搜索,对比请求中的参数,发现以下内容不一致。

2024-12-07 18:09:27 325

原创 小破站加密分析

网址:aHR0cHM6Ly9zcGFjZS5iaWxpYmlsaS5jb20vMTk1Nzc5NjYvdXBsb2FkL3ZpZGVv。

2024-11-29 21:43:49 1311

原创 Frida执行spawn方法报错timeout解决方案

frida使用时的报错信息

2024-03-01 00:55:13 2983 1

原创 分布式搭建

概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。作用:提升爬取数据的效率如何实现分布式?- 安装一个scrapy-redis组件- 原生的scrapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式- 为什么原生的scrapy不可以实现分布式? - 调度器不可以被分布式机群共享 - 管道不可以被分布式机群共享- scrapy-redis组件作用: - 可以给原生的scrapy框架提供可以被共享的管道和调度器 -

2020-09-16 15:12:37 393 2

原创 xpath中的基本操作

去掉空格res = html.xpath("normalize-space(//...)")res = html.xpath("//...").strip() # strip() 中可添加想去掉的字段用于循环res=html.xpath((string(//li[{}]/div[2]/div/div[2]/ul/li[1]/a/img/@alt))".format(i))

2020-07-29 17:54:44 233

原创 爬虫面试题02

爬虫爬取数据的流程?明确数据采集需求;分析要采集数据的url和相关参数;编码实现功能,获取url,对url进行筛选,找到自己想要的部分,入库,对数据去重;注意反爬虫的规则:1.验证码的识别;2.使用代理;3.httpclient头信息。如何抓取动态页面?动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个h...

2019-02-27 11:55:03 424

原创 面试题第六天

简述HTTP答:tcp应用值http传输httpxieyi -->超文本传输协议 应用层协议用途:网页的获取,基于网站的数据传输基于http协议的数据传输特点:1. 一个应用层协议,传输层使用tcp传输2. 简单灵活,和多种语言对接方便3. 无状态协议,不记录用户的通信内容4. 成熟稳定http工作模式:使用http双方均遵循http协议规定发送接收消息体。请求方...

2019-02-25 14:44:26 167

原创 面试题第五天

单元测试,单例模式单元测试,是指对软件中的最小可测单元进行检查和验证。对于单元测试中单元的含义,一般来说,要根据具体情况去判定其含义。单元就是人为规定的最小的被测功能单元,单元测试是在软件开发过程中要进行的最低级别的测试活动,软件的独立单元将在与程序的其他部分相隔离的情况下进行测试。单例模式,是一种常用的软件设计模式。在她都核心结构中只包含一个被称为单例的特殊类,通过单利模式可以保证系统中应...

2019-02-21 15:41:17 176

原创 面试题第四天

单引号,双引号,三引号的区别单引号里可以包含双引号和转义字符,但不能包含单引号。双引号里可以包含单引号和转义字符,但不能包含双引号。三引号里可以包含单引号和双引号,另外还有换行,注释功能。Python的参数传递是值传递还是引用传递?python中的一切事物皆为对象,并且规定参数的传递都是对象的引用什么是lambda函数?它有什么好处?概念:lambda函数是一个可以接收任...

2019-02-21 11:14:07 140

原创 面试题第三天

写个单例,什么是单例,单例怎么实现,怎么理解单例?最简单的单例就是一个模块: class foo(object): def fin(self): pass A = foo()答:单例模式是一种常用的网络设计模式,该模式的主要目的是确保某一个列只有一个实力纯在,当你希望在整个系统中,某个类只出现一个实例时,单例对象就能派上用场。把你的单例代码保存在一个py文件中,要使用时,直接在文本...

2019-02-21 10:48:27 153

原创 python爬虫面试宝典(常见问题)

是否了解线程的同步和异步?线程同步:多个线程同时访问同一资源,等待资源访问结束,浪费时间,效率低线程异步:在访问资源时在空闲等待时同时访问其他资源,实现多线程机制是否了解网络的同步和异步?同步:提交请求->等待服务器处理->处理完毕返回 这个期间客户端浏览器不能干任何事异步: 请求通过事件触发->服务器处理(这是浏览器仍然可以作其他事情)->处理完毕...

2019-02-19 14:12:33 1468

原创 数据分析day02

数据分析DAY02matplotlib概述matplotlib是python的一个绘图库。使用它可以很方便的绘制出版质量级别的图形。matplotlib的基本功能基本绘图设置线型、线宽、颜色设置坐标轴范围及刻度设置坐标轴属性图例绘制特殊点备注高级图形绘制绘制子图刻度定位器、刻度网格线半对数坐标散点图填充图条形图、饼状图等高线图热成像图极坐标系三维...

2019-02-19 09:19:24 190

原创 爬虫面试题

对if name == 'main’的理解陈述name__是当前模块名,当模块被直接运行时模块名为__main,也就是当前的模块,当模块被导入时,模块名就不是__main__,即代码将不会执行。python是如何进行内存管理的?对象的引用计数机制python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个引用...

2019-02-18 20:08:48 221

原创 面试题第二天

1 下面哪个语句在python中是非法的?(B)A x = y = z =1 B x=(y=z+1)C x,y = y,z D x *=y2 关于python的内存管理,下列语法错误的是:(D)A 变量不必事先声明 B 变量无须先创建和赋值而直接使用C 变量无须指定类型 D 可以使用del释放资源3 下面哪个不是Python合法的标识符 BA...

2019-02-18 19:30:00 319 1

原创 面试题第一天

单双引号的区别答:1) 单引号跟双引号的普通用法是相同的,str1 = ‘abc’ str2 = “abc”2) 单引号跟双引号的主要区别体现在当单引号抱起来的字符串含有双引号是,不需要使用转义字符,同样,在双引号抱起来的字符串含有单引号时,不需要使用转义字符3) 三引号:核心用法体现在跨行的字符串上,python中没有多行注释,一般使用三引号。如何在一个function中设置一...

2019-02-18 19:20:37 174

原创 数据分析day01

1.什么是数据分析?数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息形成结论而对结论加以详细研究、概括、总结的过程。使用python做数据分析的常用库numpy 基础数值算法scipy 科学计算matplotlib 数据可视化pandas 序列高级函数2.numpy概述Numerical ...

2019-02-13 18:23:22 201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除