自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 用 Python 写出这样的进度条,刷新了我对进度条的认知!

1 简介在日常运行程序的过程中常常涉及到循环迭代过程,对于执行时间很短的程序来说倒无所谓,但对于运行过程有明显耗时的涉及循环迭代的程序,为其加上进度条,是帮助我们监测代码执行进度以及处理中间异常错误非常实用的技巧。让我们开始学习吧。2 tqdm常用方法tqdm 是 Python 中所有进度条相关库中最出名的,既然是最出名的,自然有它独到之处。tqdm 不仅可以生成基础的可在终端中显示的进度条,还可以配合 jupyter notebook 和jupyter lab 生成更加美观的网页交互部

2021-09-16 10:19:55 275

原创 Python爬虫:爬取某哪儿游记攻略为十月假期做准备。。。

再过几周就是国庆假期,想想还是很激动的,我决定给大家做个游记爬虫,大家早做准备。。嘿嘿代码操作展示:今天目标地址:https://travel.qunar.com/place/开发环境:windows10python3.6开发工具:pycharm库:tkinter、re、os、lxml、threading、xlwt、xlrd1.首先先将全国所有的城市名称和id拿到2.右击检...

2021-09-10 16:40:08 575

原创 Python爬虫:浅谈【破解某易云音乐加密-JS逆向】

网页及JS代码分析我们这里直接进入某易云音乐官网,然后进入到任意一首歌曲的详情页,并进行分析。如下图:由于我们之前分析过网页的数据构成,所以这里不再赘述。直接点进R_SO_4_1446235247?csrf_token=,往下翻,可以看到params和encSecKey两个加密参数,如图:这就是我们这次破解的目标。点击Initiator。然后可以看到调用的JS文件。如下图:选择点击一个出现次数较多的。(这里无法确定点击哪一个,需要尝试...

2021-09-09 13:12:02 763

原创 方法教程 | 如何避开网站的反爬检测

【解决方法】 方法一:在导入 launch 之前 把 --enable-automation 禁用 防止监测webdriverfrom pyppeteer import launcher# 在导入 launch 之前 把 --enable-automation 禁用 防止监测webdriverlauncher.AUTOMATION_ARGS.remove("--enable-automation")这种方法在网上很多博客中都有写,不过我在使用这种方法的时候,运行报错。...

2021-09-08 17:01:03 2481

原创 Python爬虫:爬取微某评论数据,爬虫之路,永无止境

用python爬取微某评论数据,爬虫之路,永无止境。。(附源码)今天目标爬取微某任意博文的评论信息工具使用开发环境:win10、python3.6

2021-09-07 13:53:03 166

原创 方法教程 | Python爬虫:爬取美女图片,看到了意想不到的场景美女图片

python练手项目——爬取网页美女图片1.下载数据动态网页下载数据的模块2.解析数据正则表达式说明3.保存数据1.下载数据首先打开要爬的网站,分析URL,每打开一个网页看URL有什么变化,有可能带上上个网页的某个数据,例如xxID之类,那么我们就需要在上一个页面分析HTML,找到对应的数据。如果网页源码找不到,可能是ajax异步加载,去xhr里去找。有的网站做了反爬的处理,可以添...

2021-08-31 13:41:13 1468

原创 用Python爬取了《扫黑风暴》数据,并将其可视化分析后,终于知道它为什么这么火了~

今天来跟大家分享一下从数据可视化角度看扫黑风暴~绪论 如何查找视频id 项目结构 制作词云图 制作最近评论数条形图与折线图 制作每小时评论条形图与折线图 制作最近评论数饼图 制作每小时评论饼图 制作观看时间区间评论统计饼图 制作扫黑风暴主演提及占比饼图 制作评论内容情感分析图 评论的时间戳转换为正常时间 评论内容读入CSV 统计一天各个时间段内的评论数 统计最近评论数 爬取评论内容 爬取评论时间 一.爬虫部分 二.数据处理部分 三.

2021-08-30 11:17:34 252

原创 python实现二分查找算法

二分查找算法,是常见的搜索算法之一,适用于有序的序列,通过将序列不断的对折分为区间,从而确定查找值是否存在,优点是速度快。首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则利用中间位置记录将表分成前、后两个子表,如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否则进一步查找后一子表。重复以上过程,直到找到满足条件的记录,使查找成功,或直到子表不存在为止,此时查找不成功。使用python递归实现其算法:def binary_..

2021-08-28 15:43:24 263

原创 以【某程旅行】为例,讲述小程序爬虫技术

前提:在学习本文采集小程序数据之前,相信大家都掌握了抓取数据包的技能,比如使用Mitmproxy进行抓取数据包。如果看到这里的你还没有掌握的话,可以参与辰哥之前的写的一篇关于mitmproxy使用的文章(实战|手把手教你如何使用抓包神器MitmProxy)。本文目标:利用Mitmproxy抓取某程小程序景点数据,并实现翻页(下一页)循环爬取。思路:1、利用Mitmproxy抓取数据包,并进行分析2、利用分析的结果,编写Python代码进行提取数据,并进行实现下一页采集mitmpr...

2021-08-27 10:21:15 967

原创 代理IP具体可以用在哪些方面呢?

代理IP的需求也日益增加,高匿代理IP可以隐藏自身的真实IP地址去访问网站,因此被应用到很多地方,那么代理IP软件具体可以用在哪些方面呢?我们一起来了解下。1.网购下单很多平台对于新用户都有很大的优惠力度,如某订餐平台首单1折优惠等。网站判断新用户的方法除了看该账号是否购买过产品,还会看改账号的注册IP是否已经注册过。如果该用户的注册IP已经使用过了,哪怕该账号没有购买过首单也享受不到优惠,所以需要代理IP软件的帮忙。2.投票助力很多投票平台都有这样的规定,一个IP在24小时内只能投一票,想...

2021-08-25 10:55:04 230

原创 使用Python设置钉钉机器人和企业微信机器人的步骤

文章目录一、钉钉机器人 0.参考文档 1.创建一个群 2.设置群助手 3.设置机器人信息 4.编写测试文件 5.访问请求,预警成功 二、企业微信机器人 0.消息发送频率限制 1.创建群聊,增加机器人 2.设置机器人信息 3.编写测试文件 3.1普通文字格式 3.2 Markdown格式 在平时的生产环境中,为了及时预警我们代码中所出现的紧急情况,我们通常通过设置群机器人来进行预警,其中最常用的两个机器人为钉钉机器人和企业微信机器人

2021-08-23 11:04:21 860

原创 如何知晓代理IP所属城市?

拿到一个IP之后,如何确定这个IP是属于哪个城市的呢,方法比较多,这里介绍两个最方便的方法。第一,直接百度搜索这个IP地址,比如IP地址是127.0.0.1,那么你百度搜索127.0.0.1就会出现相关信息;第二,设置好代理IP之后,访问接口https://api.ip.la/en?json,会反回英文的JSON数据,如下:{ "ip":"113.194.31.45",//IP地址 "location":{ "country_code":"CN",//IP所...

2021-08-21 11:20:38 1291

原创 如何安装python的第三方库

如何安装python的第三方库由于本人是电脑小白,故在听python网课时遇到一个大问题:利用cmd来安装python的installer的第三方库。以下是本菜鸟遇到的问题以及最后成功解决的方案。首先,cmd在哪里,它是什么? 命令提示符是在操作系统中,提示进行命令输入的一种工作提示符。在不同的操作系统环境下,命令提示符各不相同。在windows环境下,命令行程序为cmd.exe,是一个32位的命令行程序,微软Windows系统基于Windows上的命令解释程序,类似于微软的DOS操作系统

2021-08-20 12:02:06 198

原创 用Python看蜜雪冰城店铺在哪个省份最多~

数据采集首先,我们打开开发者模式,然后输入蜜雪冰城进行搜索,我们发现,数据是以JSON形式存储在页面中的。既然我们已经找到数据存储的真实网页和数据存储的形式了,那就可以开始发送请求,提取数据了,代码如下:import requestsparams = ( ('newmap', '1'), ('reqflag', 'pcmap'), ('biz', '1'), ('from', ['webmap', 'webmap']), ('da_par', 'baidu'

2021-08-20 11:20:15 477

原创 用Python告诉你,为什么宇宙的尽头是公务员!代理云-HTTP代理

昨天志斌在朋友圈看到了朋友发的河南烟草局2021年度大学生招聘拟录用人员公示名单后,发现现在连这一线生产操作岗位,很多人是硕士或者是海归,真是没想到内卷会如此严重!下面,就让我们用数据来看看这个卷烟岗位,到底有多内卷!数据可视化本文数据来源于中国烟草网,如有问题,请及时联系作者处理!岗位男女数量图这次一共有149个岗位,其中男生有113位、女生有36位。岗位所在城市分布图这次招聘的岗位主要集中在郑州、许昌、安阳三市,分别有49、28、22个岗位,郑州的49个岗位中,有

2021-08-19 16:38:36 134

原创 滑动拼图验证码的原理和破解方法~

在之前的文章中,给大家介绍了关于滑动验证码的原理和破解方法,在这个基础上给大家在介绍一种新的反爬虫方式——滑动拼图验证码。志斌今天来跟大家分享一下如何解决验证码反爬虫中的滑动验证码反爬虫。原理滑动拼图验证码是在滑块验证码的基础上增加了一个随机滑动距离,用户需要将滑块滑到拼图的缺口处,使拼图完整,才能通过校验。如下图所示:破解其实破解滑动拼图验证码的原理和滑块验证码的是一样的,就是找到滑动距离,然后让滑块按照该距离进行滑动即可。但是滑动拼图验证码,它的滑动距离是随机的,所以...

2021-08-19 11:46:46 5166

原创 为什么代理ip软件会兴起呢

部分朋友还不了解代理ip软件是什么东西,但是在这里要告诉大家的是,代理IP软件早已经被一些大公司和网络高手使用,且越来越受到网民朋友的欢迎。那么为什么代理ip软件会兴起呢?请看下面的介绍。网络上面高手云集,有很多的黑客和网络高手都会运用自身的技术去攻克别人的网络,从而窃取别人的个人信息或者是浏览数据,严重的影响他人的网络使用安全。其次,网络运营商本身提供的网络技术比较的不先进,因此造成了网络经常出现各种各样的问题,严重的影响玩家们的兴致。然后,上面提到的先进的软件具有诸多的优点用途,一个就是网络游戏加

2021-08-18 13:44:25 194

原创 代理服务器类型有哪些?

代理IP可以分为Http代理,Https代理,Socks代理:1). Http代理: www对于每一个上网的人都再熟悉不过了,www连接请求就是采用的http协议,所以我们在浏览网页,下载数据(也可采用ftp协议)时就是用http代理。它通常绑定在代理服务器的80、3128、8080等端口上。2). Https代理: HTTPS(Secure Hypertext Transfer Protocol)安全超文本传输协议 ,它是由Netscape开发并内置于其浏览器中,用于对数据进行压缩和解压操作,并返回

2021-08-17 13:19:20 941

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除