- 博客(39)
- 收藏
- 关注
原创 关于如何获取动态cookies的爬取策略
此时的cookies中还带有关于时间的参数,只要超过规定时间,爬取过程中就会报错,爬虫工程师只能通过加解密js的方式来进行操作。在遇到此类问题,我们可以通过一个自动化的模块DrissionPage来获取到动态cookies来为我们的爬虫服务。思路:使用DrissionPage通过获取用户浏览器的缓存数据,来访问用户已经登陆的网站信息返回动态的cookies的值,通过此cookies结合requests或scrapy来访问网页的数据。
2024-08-13 10:36:01
758
原创 关于多线程的使用方法
多线程在python中应用比较广泛,但是因为python中有GIL锁的缘故,在多线程中看起来是并发的执行的,在宏观上是并发执行的,但是在微观上是一个接着一个执行。在python中使用多线程比较简单,是一套固定的模版。
2024-07-03 11:53:55
205
原创 django中关于全文检索的实现(搜索)
全文检索不同于特定字段的模糊查询,使用全文检索的效率高,并且能够对中文进行分词处理haystack:django的一个包,可以方便地对model 里面的内容进行索引,搜索,设计为whoosh,solr, Xapian,Elasticsearc四种全文检索引擎后端,属于全文检索的框架whoosh:是纯python编写的全文搜索引擎,虽然性能上比不上sphinx,xapian,Elasticseara等,但是无二进制包,程序不会莫名其妙的崩溃,对于小型站点,whoosh已经足够使用。
2024-06-22 14:53:26
950
原创 关于飞浆文字识别技术的运用
只要将一串数字和字体对应,就可以完成破解,但人工对应比较麻烦,利用文字识别技术,将获取的文字图片与文件名上的一串数字对应就能很方便的破解。在进行网页制作的时候,我们可以设置多个字体,并且可以自定义字体只需有字体文件(以woff开头),在第一个字体中没用该字体会使用第二个字体,都没默认使用微软雅黑。飞桨(PaddlePaddle)是一个由百度开源的深度学习平台,它提供了丰富的机器学习算法库,支持多种深度学习模型的构建、训练和部署。:飞桨提供了简洁的API设计和丰富的文档,使得初学者和研究人员可以快速上手。
2024-06-22 11:33:12
1844
原创 python技术面试题(其三)
自定义对datatime类型的序列化类, 继承JSONEncoder 使用里面的default方法,将编码失败的数据传入到这里,判断传入的对象是否是datatime类型,如果是则使用strtime方法进行还原成字符串。一, 对象的引用计数机制python内部使用引用计数,来保持追踪内存中的对象,所有对象都有引用计数。可变类型,在调用栈里分配地址,地址对应堆里分配的地址,堆的地址存储真正的值,如果修改会相互影响。不可变类型,在调用栈里分配地址,地址直接对应值,如果修改会开辟一块新空间,存储新值,相互不影响。
2024-06-21 09:09:07
411
原创 关于app爬虫的环境准备
代理服务器主机名填写本机的ip,不知道本机ip的可以cmd输入ipconfig查看自己的ip,代理服务器端口填写为:8888(此为fiddler的端口号)。注意:若是使用安卓手机,需要先获取root权限(手机有变成板砖的风险,建议使用配置为安卓7版本的手机)有些数据需要在手机应用中才能查看,没有网页版,所以学习移动端的爬虫是有必要的。有安卓手机的可以使用手机,没有的可以使用模拟器,本次以夜神模拟器为例。在对应用程序进行浏览时,需要打开fiddler软件,监听应用程序。
2024-06-19 20:52:53
1249
原创 关于scrapy模块中setting.py文件的介绍
设置爬虫的名称# 指定包含的爬虫代码的模块# 设置用户代理,用于模拟浏览器或特定的爬虫身份Win64;# 配置爬虫是否遵循robots.txt柜子# 控制并发请求的数量(默认为16)# 设置下载延迟,控制请求之间的时间间隔,以避免对目标服务器造成过大负载# 配置每个域名的最大并发请求数# 设置每个IP地址的最大并发请求数# 启用或禁用cookies# 启用或禁用Telnet控制台# 默认的请求头Win64;# 启用或禁用爬虫中间件# 爬虫中间件及其顺序# 启用或禁用下载中间件。
2024-06-17 15:56:47
520
原创 scrapy模块的基础使用
数值越小,优先级越高,越先启动,数值相同他们的启动顺序将是随机的,无法确定哪一个会先启动。存储的项目通过进入piplines.py文件中(pipelines.py在settings中默认不开启,需要手动开启 )scrapy模块是爬虫工作者最常用的一个模块之一,因它有许多好用的模板,和丰富的中间件,深受欢迎。也可将爬虫日志写入在文件中,避免输出在终端时,因终端可显示的长度有限,显示不完全。在name.py中编写爬虫项目,name.py文件中会自带以下代码。安装程序后,创建自己项目,在终端中输入以下代码。
2024-06-17 13:58:46
510
原创 爬虫相关面试题(其三)
爬取速度受本地网络情况,对方服务器阈值,硬件配置等影响,有时也考虑反爬和稳定,也会自己故意限速,以及在部分不式的情况下,正常反爬松一点的大型网站一天50W,小一点的或者对方服务器承受不了太大并发的就在20W左右。由于反爬,网络问题,请求限制等等问题成功率在98%以上。4,通过一些固定的算法逻辑解决(滑动验证码), 通过操作css获取带缺口的图和全背景的图,然后比较相同位置的像素的RGB值,如果某个像素的RGB差值比较大,X坐标就是滑动距离,最后在通过变加速和变减速以及停顿模拟人的滑动。
2024-06-17 13:58:28
1083
原创 python基础面试题(其二)
常见操作——查找检测str是否包含在string中,如果beg和end指定范围,则检查是否在指定范围内,如果是返回开始的索引值,则返回-1类似于find函数,不过是从右边开始查找类似于find函数,但是找不到报异常类似于find函数,但是找不到报异常。常见操作——统计检查字符串是否以obj开头, 是则返回True, 否则返回False。如果beg和end指定值,则在指定范围内检查。检查字符串是否以obj结尾,是则返回TRUE,否则返回False. 如果beg和end指定值,则在指定范围内检查。
2024-06-15 17:12:38
506
原创 python基础面试器(其一)
OOP(Pbject Oriented PrograMing)编程是利用“类”和“对象”来创建各种模型来实现对真实世界的描述。与面向过程机械式的思维方式形成鲜明对比,面向对象更加注重对现实世界而非流程的模拟,是一种“上帝式”的思维方式。其核心就是对象二字,对象就是特征与技能的结合体。它的优点有:1,使程序更加容易拓展和易更改,使开发效率变得更高(对某个对象类属性的修改,会立刻反映到整个体系中)2,基于面向对象的程序可以使他人更加容易理解代码逻辑。封装,继承和多态为面向对象的三大特性。
2024-06-15 11:44:05
482
原创 网络数据库后端框架相关面试题(其四)
FBV(function base views)就是在视图中使用函数处理请求。CBV(class base views ) 就是在视图里使用类处理请求python 是一个面向对象的编程语言,如果只用函数来开发,有很多面向对象的优点就错失了(继承,封装,多态)。所以Django在后来加入Class-Based-View.可以让我们用类写View。这样做的优点主要有以下两种:1,提高代码的复用性,可以使用面向对象的技术,比如Mixin(多继承)
2024-06-15 09:23:24
955
原创 爬虫相关面试题(其二)
1,进程是操作系统资源分配的基本单位,而进程是任务调度和执行的基本单位。2, 每个进程都有独立的代码和数据空间,同一类线程共享代码和数据空间3, 在操作系统中能够同时运行多个进程(程序);而在同一的进程(程序)中有多个线程同时执行。使用场景:多进程适合计算密集型任务, 多线程适合IO密集型任务优缺点:线程和进程在使用上各有各的优缺点,线程执行开销小,但不利于资源的管理和保护,而进程正相反。
2024-06-13 21:51:33
1791
1
原创 关于scrapy模块中间件的简单理解
Scrapy是一个功能强大的Python网络爬虫框架,它提供了中间件(Middleware)机制来定制和扩展爬虫的行为。中间件可以在请求发送之前或响应到达之后插入自定义逻辑,用于处理请求和响应,实现请求修改、响应处理和自定义下载逻辑等功能。Scrapy中主要有三类中间件:下载器中间件、爬虫中间件和扩展中间件。下载器中间件用于处理请求和响应之间的逻辑,爬虫中间件用于处理爬虫输入输出的逻辑,而扩展中间件则用于扩展Scrapy的功能。通过中间件,用户可以灵活地控制和定制爬虫的行为,提高爬虫的灵活性、可扩展性和错误
2024-06-13 16:23:03
1229
原创 爬虫相关面试题
scrapy是一个快速(fast), 高层次(high-level)的基于python的web爬虫框架,用于爬取web站点并从页面中提取结构化数据。scrapy使用了Twisted异步网络库来处理网络通讯请求多级页面,结构清晰它容易构建大规模的抓取项目它异步处理请求,速度非常快它可以使用自动调节机制自动调整爬行速度分布式系统是由一组通过网络进行通信,为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的,普通的机器完成单个计算机无法完成的计算,存储任务。
2024-06-12 20:51:39
1888
原创 网络数据库后端相关面试题(其三)
csrf跨站点请求伪造(Cross--Site Request Forgery), 跟XSS攻击一样,存在巨大的危害性,可以这样来理解:攻击者盗用我们的身份,以我们的名义发送恶意请求,对服务器来说这个请求是完全合法的,但是却完成了攻击者所期望的一个操作,比如以我们的名义发送邮件,发送消息,盗取我们的账号,添加系统管理员,甚至购买商品,虚拟货币转账等。在python层面就是普通的字符串。2:做二级缓存,A1为原始缓存,A2为拷贝缓存,A1失效时,可以访问A2,A1缓存失效时间设置为短期,A2设置为长期。
2024-06-11 19:59:03
605
原创 网络数据库后端相关面试题(其二)
如果不使用索引,数据会零散的保存在磁盘中,查询数据需要挨个遍历每一个磁盘块,直到找到数据,使用索引后会将磁盘块以树桩结构保存,查询数据时会大大降低磁盘块的访问数量,从而提高查询效率。为了传输的安全,在https在http的基础上加入了SSL协议,SSL协议依靠ca证书来验证服务器的身份,为了浏览器和服务器之间的通信加密,https的加密机制是一种共享密钥加密和公开密钥加密并用的混合加密机制。一,端口不同:http与HTTPS使用不同的连接方式,用的端口也不一样,前者是80端口,后者是443端口;
2024-06-04 21:55:47
476
原创 探索视觉魔法:深入解析CSS魔幻效果的创造与实现
CSS作为网页设计的重要组成部分,不仅限于传统的样式布局,还能通过创造性的应用实现令人惊叹的视觉效果。本文将深入探讨如何利用CSS技巧和特性,创造出吸引人眼球的魔幻效果。从渐变色背景、3D转换到动画效果,我们将一步步揭秘实现这些效果的原理和方法。通过学习本文,读者将掌握运用CSS创造出炫目效果的技能,为网页设计增添更多魅力与灵感。
2024-04-02 18:00:00
1239
1
原创 深入了解HTML:优化代码结构与兼容性考虑
在现代网页开发中,HTML作为构建网页结构的基础语言,扮演着至关重要的角色。优化HTML代码结构并考虑兼容性,是提升网页性能和用户体验的关键步骤。本文将深入介绍如何优化HTML代码结构以及考虑不同浏览器和设备的兼容性,帮助开发者构建更加健壮和灵活的网页。
2024-04-01 20:33:12
1184
原创 Mysql,MongoDB,Redis的横纵向对比
MongoDB是基于分布式文件存储的数据库,是一个介于关系型数据库和非关系型数据库之间的产品,是非关系型数据库之中最像关系型数据库的。MongoDB将数据存储为一个文档,数据结构由键值对构成。文档类似于JSON对象。字段值可以包含其他文档,数组以及文档数组。Redis是一个开源的内存非关系型数据库,它可以用作缓存,数据库和消息中间件。Redis支持多种数据结构,比如字符串,哈希表,列表,集合,有序集合。同时具有持久化,复制,高可用和集群特性。它被广泛应用在web开发中,用于加速数据访问和提高性能。
2024-03-13 20:04:45
1388
1
原创 掌握Redis,看完这篇文章就够了
Redis有着广泛的应用场景。典型应用就是:内存缓存,主要用于处理大量数据的高访问负载,优点在于快速查询Redis是键值对存储数据库,类似于字典。
2024-03-12 20:05:11
941
1
原创 掌握Mongodb,看完这篇文章就够了
mongo是非关系型数据库,一个基于分布式文件存储的数据库。Mongo是一个介于关系型数据库与非关系型数据库之间的产品,是非关系型数据库中当中功能最丰富的,最像关系型数据库的。
2024-03-11 20:17:44
394
1
原创 MYSQL 知识体系,必会语句
数据库是用来存储和管理数据的仓库,一个数据库中包含多个数据表数据表:数据表是数据库中最重要的组成部分之一,它由纵向的列和横向的行组成,类似于excel表格一样,可以指定列名,数据类型和约束等,一个表中可以存储多条数据。数据:想要永久化存储的数据数据类型:数值型:int ,double字符型:varchar 可变长度类型char 固定长度类型日期型:date 年月日datetime 年月日时分秒 没有默认值是NULL。
2024-03-09 11:21:53
943
1
原创 剖析Python函数的精髓:定义、调用、参数传递与返回值揭秘
函数是Python编程中非常重要的概念之一。本文将详细介绍函数的定义、调用、形参、实参和返回值,并探讨函数调试、变量作用域、函数类型、匿名函数、递归函数和装饰器等高级概念。同时还会介绍一些常用的内置函数,帮助读者更好地理解和应用Python函数。
2024-01-23 21:41:58
1431
原创 一键读写JSON文件:Python中open和json的黑魔法
在Python中,我们经常需要读取或写入JSON格式的数据。open函数可以帮助我们打开一个文件并进行读写操作,而json模块则提供了解析和序列化JSON数据的功能。本文将介绍如何使用open和json来读写JSON文件,以及一些常见的用法和技巧。
2024-01-23 21:25:25
712
原创 “从小白到大师:掌握Python中os模块的高级应用技巧“
os模块是Python中一个强大而实用的模块,它提供了丰富的功能来处理文件和目录。无论是创建、删除、移动文件,还是遍历目录结构,os模块都能满足我们的需求。本文将介绍os模块的主要功能和常见用法,帮助读者更好地利用这个模块提高编程效率。
2024-01-23 21:15:48
411
原创 从入门到精通,逐步学习Python集合的基础知识与应用
本文旨在帮助初学者从入门到精通掌握Python集合的基础知识与应用。我们将从集合的创建、添加、删除开始,介绍集合的常见操作和方法。通过实例演示,帮助你熟悉集合的基本概念和常用技巧,逐渐掌握集合的应用场景。
2024-01-18 17:50:02
366
1
原创 从小白到大神,逐步学习Python字典的基础知识与实践
本文旨在帮助初学者从小白逐步成为Python字典的大神。我们将从字典的创建、访问、添加、删除开始,介绍字典的常见操作和方法。通过实际案例演示,你将学会如何灵活运用字典解决各种问题,逐渐掌握字典的基础知识与实践技巧。
2024-01-18 09:09:25
495
1
原创 深入理解Python中zip函数的迭代特性,拓展你的编程思维
本文深入解析了Python中zip函数的迭代特性,帮助你更好地理解该函数的工作原理和使用方法。我们将讨论zip函数与不同长度的列表、迭代器对象等的配合使用,探索其在数据处理、算法设计等方面的应用,拓展你的编程思维。
2024-01-15 21:00:40
454
1
原创 “元组的应用与技巧:从入门到精通掌握Python中的元组!“
深入探讨元组的应用场景和技巧,了解如何充分利用元组的不可变性和高效性,提升数据处理的效率。
2024-01-15 20:02:09
617
1
原创 从入门到精通:Python日期时间完全指南,让你成为时间编程大师!
「掌握Python日期时间操作,解密时间的奥秘,为你的程序注入时间智慧!」
2024-01-13 11:39:10
412
1
原创 循环掌控:从入门到精通Python中range数列与for循环的完全指南!
「玩转Python中的range数列与for循环,轻松掌握迭代器编程技巧!」
2024-01-09 21:36:22
555
1
原创 超越基础循环技巧:玩转Python中range数列与for循环的进阶方法与技巧!
「用Python的range数列与for循环,让你的代码循环精准、效率翻倍!」
2024-01-09 21:24:08
608
SocketTool是一个常用的网络调试工具,用于测试网络通信和调试TCP/IP连接 它提供了一系列工具和功能
2024-06-22
"Everything" 是一款由 Voidtools 开发的超快速文件搜索工具,专为 Windows 操作系统设计
2024-06-22
LSposed 是一个支持 Android 操作系统的模块框架,它基于 Riru 和 Zygisk(Magisk 的一部分)
2024-06-22
MT文件资源管理器(MT File Manager)是一个功能强大的Android应用程序,专为高效管理和浏览设备内部和外部存储
2024-06-22
AirtestIDE 是由网易开发的一款跨平台 UI 自动化测试工具,主要用于移动应用和游戏的自动化测试 它基于图像识别和脚本编
2024-06-22
Xposed Framework 是一种为 Android 系统设计的软件框架,它可以实现对 Android 系统的各种修改
2024-06-22
XPGJC 是一种在Android设备上用于提取和恢复微信聊天记录的工具 它通常应用于数据恢复场景
2024-06-22
“JustTrustMe” 是一个Android平台上的开源工具,它被设计用来绕过某些类型的SSL/TLS证书验证
2024-06-22
Wireshark是一款功能强大的网络协议分析工具,用于捕获和分析网络流量 它广泛应用于网络管理、故障排除、安全分析和教育培训等
2024-06-22
fiddler抓包工具,应对网页打不开,或app端爬虫
2024-06-22
django的中文文档,不翻墙也可以使用的离线文档
2024-06-22
鬼鬼js调试工具,用于进行js调试功能
2024-06-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人