
python
文章平均质量分 89
刘早起
微信搜索【早起Python】关注我的公众号
关注后回复以下关键词获得不同学习资源:
1、回复pandas,获得pandas120题
2、回复Python,获得Python技术图书
3、回复爬虫,查看爬虫系列文章
4、回复自动化,查看自动化系列文章
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python + Steamlit 快速开发可视化 web 页面!
用Python做web图形用户界面,最先想到的是Flask、Djong等框架。然而研究这些对于初学者来讲,尤其是没有web开发基础的数据分析人员是痛苦的。幸运的是,Python中也有很多第三方库来快速进行简单的web可视化,例如之前介绍的 PyWebIO今天再介绍一个 Steamlit,可以快速利用简单的代码快速布局自己想要的web界面!一、安装与运行安装之前,我们需要将 Python 的版本升级到3.7或以上,同时设置好环境变量,这里默认读者都已经设置好不细讲。在 Windows.原创 2021-10-25 11:19:47 · 6168 阅读 · 0 评论 -
人人都能学会的 Python 多线程指南
大家好,我是早起。在 Python 中,多线程最常见的一个场景就是爬虫,例如这样一个需求,有多个结构一样的页面需要爬取,例如下方的URL(豆瓣阿凡达影评,以10个为例)url_list=['https://movie.douban.com/subject/1652587/reviews?sort=time&start=0','https://movie.douban.com/subject/1652587/reviews?sort=time&st...原创 2021-09-09 19:49:44 · 468 阅读 · 0 评论 -
人人都能看懂的「迭代器、生成器」入门指南!
大家好。这是「人人都能看懂的 Python 进阶」系列。今天我们将讨论能在很多教程中看到,但又常常搞的头晕转向的迭代器、生成器,以及让新手经常困惑的yield。事实上,和装饰器一样,这三个概念也是绑在一起的,例如你想知道 「什么是yield」,那在这之前你必须了解什么是生成器。不过在了解生成器之前,又必须了解什么是迭代器,但在搞明白迭代器之前,你总要知道什么是可迭代对象吧。下面就让我们按照这个思路,来一点一点前进吧。一、迭代器1. 迭代在介绍一切之前,先说一下最简单的迭代&原创 2021-08-30 09:31:45 · 363 阅读 · 1 评论 -
写了篇爬虫文章,收到份律师函?
大家好,我是早起。从写公众号开始,不论是私信还是交流群,常常都会有粉丝会问出类似下面的问题 xx网站能不能爬? 爬xx数据有没有风险? 其实我并不是爬虫从业人员,充其量算爬虫爱好者,去年也转载过一篇相对理性的文章????请不要污名化爬虫!,年初还因为在公众号分享某网站的反爬破解收到了律师函,算是在作死的边缘徘徊了一波 今天就简单聊一下爬虫那些事儿。当我们谈论爬虫在这里,其实我想吐槽一下,对于大多数非爬虫从业者或者说大部分 Python 爱好者来说,我们写的“爬虫”和大家谈原创 2021-08-03 10:01:52 · 653 阅读 · 1 评论 -
知己知彼,案例对比 Requests、Selenium、Scrapy 爬虫库!
大家好,我是早起。经常有读者会爬虫学哪个库?其实常用的 Python 爬虫库无非是requests,selenium和scrapy,其实每个库都有他们的特点,对于我来说没有最推荐的库只有最合适库,本文就将基于一个简单的爬虫案例(Python爬取起点中文网)来对比分析三个库 目标需求为批量采集排行榜书籍信息,如下图所示: 页面结构很容易分析出来,排行榜100条书籍信息,一个静态页面包含20条数据。使用不同的第三方库进行数据解析并提取数据,分别是: requests selenium原创 2021-07-27 10:34:09 · 817 阅读 · 2 评论 -
神器Jinja2,用 Python 快速生成分析报告!
大家好,我是早起。在之前的文章中,我们使用 Python 开发了一个简单的基金购买策略的回测系统。在代码执行完毕后,会生成一系列的结果,包含大量图片、表格如下 此时如果一个一个查看的话便十分低效,如果能使用一个文件把全部输出结果都保存将会大大提高体验。首先想到的当然是 PDF 格式,利用 Python 操作 PDF 也是之前文章分享过很多,想必利用表格+图片生成一个新的PDF并不困难。研究了一番后,发现确实不难,但是太繁琐了,并且 PDF 涉及格式、分页等,如果没有调整好可能会将一张图片放在两页原创 2021-06-26 17:29:04 · 621 阅读 · 0 评论 -
总结了10个matplotlib绘图技巧,短小精悍,威力无穷!
大家好,我是早起。在使用 Python 进行数据可视化时,相信不论是什么工具,你都会发现有些操作/代码段会频繁的用到,这一点在matplotlib上尤为突出,本文就向大家分享十个我常用的一些小技巧,大多一行代码,短小精悍,威力无穷。一、快速且正确的显示中文在matplotlib中,默认是没法显示中文的,原因很简单,默认使用的字体文件中不含中文。当你搜索如何设置中文时,会有很多教程,我曾经也详细的介绍过3种方法,但是在有的电脑上折腾很久也搞不定,所以当你浪费了太多时间也没法解决,或者在一台陌生原创 2021-03-29 15:31:21 · 834 阅读 · 0 评论 -
Python办公自动化|可能是全网最完整的 Python 操作 Excel库总结!
大家好,我是早起。在之前的办公自动化系列文章中,我已经对Python操作Excel的几个常用库openpyxl、xlrd/xlwt、xlwings、xlsxwriter等进行了详细的讲解。为了进一步带大家了解各个库的异同,从而在不同场景下可以灵活使用,本文将横向比较7个可以操作 Excel 文件的常用模块,在比较各模块常用操作的同时进行巩固学习! xlrd、xlwt、xlutils 各自的功能都有局限性,但三者互为补充,覆盖了Excel文件尤其是 .xls 文件的操作。xlwt 可以生成 .x原创 2021-03-01 10:38:58 · 3146 阅读 · 0 评论 -
四种Python爬虫常用的定位元素方法对比,你偏爱哪一款?
大家好,我是早起。在使用Python本爬虫采集数据时,一个很重要的操作就是如何从请求到的网页中提取数据,而正确定位想要的数据又是第一步操作,本文将对比几种 Python 爬虫中比较常用的定位网页元素的方式供大家学习 传统 BeautifulSoup 操作 基于 BeautifulSoup 的 CSS 选择器(与 PyQuery 类似) XPath 正则表达式 参考网页是当当网图书畅销总榜:http://bang.dangdang.com/books/best原创 2021-02-18 18:58:19 · 827 阅读 · 0 评论 -
情人节,教你用Python定时给小姐姐微信发送专属问候!
大家好,我是早起。今天是大年初二,本来是可以好好在家休息,但是考虑到明天就是情人节了,加上最近后台求往期情人节/520/七夕表白文章的代码人数又多了起来,我就再给大家分享一招????每天早上用Python给TA的微信发送问候大致效果如下,只要程序写好了每天早上就会自动给小姐姐发送一条问候消息。 思路分析看上去有点复杂,又要爬天气又要爬路况,但只要将思路分析清楚就能轻松搞定,本项目大致分为三块“ 爬取相关信息(日期、时间、路况) 构建内容并推送消息至微信 每天定原创 2021-02-13 10:25:32 · 2754 阅读 · 1 评论 -
用Python制作一个数据预处理小工具,多种操作,一键完成,非常实用!
在我们平常使用Python进行数据处理与分析时,在import完一大堆库之后,就是对数据进行预览,查看数据是否出现了缺失值、重复值等异常情况,并进行处理。本文将结合GUI工具PySimpleGUI,来讲解如何制作一款属于自己的数据预处理小工具,让这个过程也能够自动化!最终效果如下本文将分为三部分讲解: 制作GUI界面 数据处理讲解 打包与测试 主要涉及将涉及以下模块: PySimpleGUI pandas matplotlib 一、GU原创 2021-02-06 09:52:17 · 1399 阅读 · 2 评论 -
matplotlib进阶必会!使用OffsetBox尽情的添加你想要的自定义元素!
大家好,我是早起。我们都知道,如果想要在matplotlib中添加文字注释可以使用plt.text根据坐标来添加,如果想要添加箭头也同样可以使用plt.arrow根据坐标完成。那如果想要添加自定义的图片呢?在matplotlib中添加自定义图片有多种方法,本文将基于matplotlib中的Artists容器类讲解,如何在我们制作的图中添加任意自已想要的元素。作为示例,和以前的文章一样,本文不罗列各种参数,用下图作为示例,step by step的介绍每部分制作流程 一句话看懂原理关于原创 2021-01-23 09:29:44 · 1855 阅读 · 0 评论 -
Matplotlib官方神图,被我画出来了!
大家好,在之前的文章人人都能看懂的Matplotlib绘图原理中,我们对Matplotlib的绘图机制进行了讲解,在弄清楚plt.xxxx和ax.xxxx中plt和ax区别之后,本文继续讲解xxxx究竟是什么。现在我们应该知道Matplotlib绘图其实很简单,不就是弄一块画布,然后往这块画布上添加我们要的图形,最后就是进行修饰。如何添加画布/绘图区域已经讲过,如何添加图形,看我发的各种可视化图鉴就行了,而最需要花时间的就是对初步成型的图案进行修饰,先来看一张来自官方文档的图 我们可以看到,其实原创 2021-01-18 09:27:44 · 827 阅读 · 1 评论 -
人人都能看懂的Matplotlib绘图原理
前言大家好,我是早起,这篇文章没有代码,只做一件事:尝试讲明白Matplotlib的工作机制,先说说我刚开始是怎样学习Matplotlib的吧(可能也是你的)????大概在几年前,我还是一个Excel Boy,在学习了一段时间Python后,发现用Matplotlib居然也能制作精美的图形,于是百度【Matplotlib怎么制作xx图】,之后随便点开一两个网站,跳过大段文字部分,直接复制代码粘贴运行,成功得到图片。OK!Matplotlib我会了!**这样学不行吗?当然行!**我在之前文章中也说原创 2021-01-17 08:28:25 · 646 阅读 · 0 评论 -
火了!开源的Python抢票神器,过年回家就看这一波了!
大家好,我是早起。春运即将到来,抢票回家又该提上日程了!在Github上也有很多优秀的开发者开源了一些基于Python的抢票项目,比如一直很火的**12306/py12306**,目前已经累计超40k Star!但如果你尝试使用,会发现由于12306的验证码升级,这两个项目的登陆模块都挂掉了。but不慌,经过一番探索,我找到了一个还能完美使用的抢票项目,并联系到开发者@罐子里的茶呢,了解到只要对登陆模块的一些接口地址进行变更,以及对部分参数的获取逻辑进行调整,就能重新盘活Python抢票项目12306原创 2021-01-10 09:28:11 · 1114 阅读 · 5 评论 -
Python爬取上万条大众点评数据,解读一线快餐品牌背后的秘密
中国的快餐市场竞争一直都很激烈,关于各种品牌江湖上也流传着各种神奇的故事,那么你知道 一线城市最多的快餐品牌是哪家? 沙县小吃真的是中国餐饮巨头吗? 每一家肯德基边上都有一家麦当劳是不是真的? 星巴克VS瑞幸咖啡,谁的热度更高? 本文使用Python爬取了上万条大众点评商家数据,告诉你答案!一线城市快餐品牌店铺数量大PK首先我们来看一下一线城市中沙县小吃、兰州拉面、星巴克、瑞幸咖啡、肯德基、麦当劳的店铺数量分布情况 从上方的图中可以看到,沙县小吃在上海、广原创 2020-12-25 13:15:37 · 1052 阅读 · 2 评论 -
圣诞节,教你用Python给微信头像添加一个圣诞帽~
大家好,我是早起。圣诞节快到了,每年一到圣诞节就会有很多人的头像上多了一顶小红帽 那么你有想过如何用Python去实现吗?如果你尝试去搜索,会发现网上教程一大堆,但是由于大多数人都将圣诞帽位置固定了,所以放上自己的图片后,要不就是圣诞帽偏移了,要不就是帽子比头还大,代码也不知道在哪里改,无从下手。因此,本文将手把手教你如何用Python为你的微信头像添加一顶圣诞帽,并结合我们之前讲过PySimpleGUI,做成一个带有GUI的小程序,先看效果: 本次主要分为两个部分讲解: 用ope原创 2020-12-24 11:58:52 · 631 阅读 · 3 评论 -
尝鲜!微软首个AI量化投资开源平台Qlib上手体验!
近日,微软亚洲研究院正式发布了业内首个AI量化投资开源平台Qlib,发布一个月以来已经在GitHub收获2.3k star! 值得关注的一点就是这套量化系统的框架分为多层,每层由多个松散耦合的模块组成,因此每个模块用户都可以自行修改、定制、使用,如下图所示 通过这样的方式,可以让用户更快的了解整个工作流程,并灵活的进行调整,同时也支持在线和离线两种模式,嗯,本地取数据、本地跑策略,隐私上也有一定的提升。更多的宣传点,本文不再过多介绍,下面将从用户使用的角度讲解如何安装配置Qlib并构建一个量化交原创 2020-12-17 22:04:45 · 4447 阅读 · 11 评论 -
天秀!一张图就能彻底搞定Pandas!
大家好,在三月初,我曾给大家分享过一份Matplotlib绘图小抄,详见收下这份来自GitHub的神器,一图搞定Matplotlib!昨天在面向GitHub编程时,无意发现了Pandas官方竟提供了同款小抄,项目地址如下https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf可以看到这份小抄提供了PPT和PDF两个版本,虽然最新一条更新记录为两年前,但是并不影响我们拿来学习,下原创 2020-12-07 10:06:11 · 715 阅读 · 2 评论 -
PySimpleGUI 进阶| 原来用Python做一个图片查看系统,还能这么简单!
大家好,在昨天的文章中我们已经介绍了为什么以及如何基本使用PySimpleGUI,并且对一些比较常用的元素(element)也有所了解。本文将对基础版中的一些元素与新讲解的元素进行组合,构建一个图片查看系统与一个简易的计算机视觉系统(代码调用前置照相机)作为PySimpleGUI的进阶篇,我将分为以下两个部分讲解: 图片查看系统的构建 简易计算机视觉系统(cv)的构建 本次内容主要涉及的Python模块: PySimpleGUI os cv2 图原创 2020-11-29 10:51:24 · 2220 阅读 · 2 评论 -
8 个 Jupyter Notebook 小技巧,隐藏得太深了!
如果你想用Python进行数据分析,那么Jupyter notebook是你必须要熟练掌握的工具之一,而Notebook也有很多省时好用的小技巧,本文将分享我在使用Notebook时习惯使用的一些操作! 1.在Notebook中安装第三方库有时我们在进行数据分析的过程中,或者是使用一些在线/远程Notebook,需要临时安装一个第三方库,如果从命令行(甚至没有命令行界面)安装后再重启notebook,那么所有进度都将丢失!这时我们可以使用!pip install xxx 就可以直接在no...原创 2020-11-24 11:58:42 · 1446 阅读 · 0 评论 -
【Python数据可视化】用Pandas做出精美图表
如果你经常使用Python进行数据分析,那么对于Pandas一定不会陌生,但是Pandas除了在数据处理上大放异彩,随着版本的不断更新,Pandas的绘图功能在某些情况下甚至要比Matplotlib更加适用,本文就将介绍如何用Pandas更快的进行数据可视化!基本使用,学会制作套路首先我们使用pandas随机生成示例数据import pandas as pddf= pd.DataFrame(np.random.rand(8, 4), columns=['A','B','C','D'])现在只要原创 2020-11-22 10:27:44 · 2241 阅读 · 5 评论 -
让Python在后台自动解压各种压缩文件!
一、需求描述:编写一个Python程序,每次下载压缩包形式的文件后,自动将内部文件解压到当前文件夹后将压缩包删除,通过本案例可以学到的知识点:os 模块综合应用glob 模块综合应用利用 gzip zipfile rarfile tarfile 模块解压文件二、步骤分析和前置知识码代码之前需要将复杂问题解释成多个明确的要求,即这个程序实现的逻辑为:定时检测某个文件夹(如 download 文件夹)是否存在压缩文件如果有新出现的压缩文件则将其解压到当前文件夹内的新文件夹中删除压缩文件原创 2020-11-13 21:38:25 · 315 阅读 · 0 评论 -
pivottablejs|在Jupyter中尽情使用数据透视表!
大家好,在之前的很多介绍pandas与Excel的文章中,我们说过**「数据透视表」是Excel完胜**pandas的一项功能。Excel下只需要选中数据—>点击插入—>数据透视表即可生成,并且支持字段的拖取实现不同的透视表,非常方便,比如某招聘数据制作地址、学历、薪资的透视表而在Pandas中制作数据透视表可以使用pivot_table函数,例如同样制作上面的透视表可以使用下面的代码pd.pivot_table(df,index=["地址","学历"],values=["薪资水平"])原创 2020-10-28 08:03:15 · 2153 阅读 · 0 评论 -
如何在启动Jupyter Notebook时自动执行一段代码?
在我们使用Jupyter Notebook写代码时,启动后总是需要导入一些库并进配置,尤其是用来做数据分析时,打开后肯定是光速键入下面的代码import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import svm, tree, linear_model, neighbors, naive_bayes, ensemble, discriminant_analysis, gaussian_p原创 2020-10-10 09:28:37 · 3122 阅读 · 1 评论 -
分析数万条旅游评论数据后,告诉你国庆“坑爹”景点背后的秘密......
大家好,说一个鬼故事:你的假期余额不足4小时,这个国庆,你出去旅游了吗?每次假期后网友总爱去微博、知乎吐槽国庆旅游的坑爹景点,相关话题也频上热榜,在国庆期间也有相关文章**[1]通过整理对应话题统计出最坑爹城市前五名分别为杭州、西安、厦门、北京、南京**,而最坑爹景点则有西湖、兵马俑、鼓浪屿、故宫、夫子庙、黄鹤楼等**[2]**,本文通过Python爬取旅游网站评论数据,分析这些城市和景点在国庆期间到底表现如何,是否真的像网友吐槽的那样坑爹。01数据来源与说明本文使用的数据均来源于携程旅行官网对应景点原创 2020-10-08 22:07:09 · 581 阅读 · 1 评论 -
来自Kaggle金牌得主的Python数据挖掘框架,一文学会机器学习基本流程!
导读很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。本文在翻译的同时删减了部分介绍性文字,并对结构进行了调整方便大家阅读,由于篇幅原因,本篇文章中并没有包含大段的代码,仅保留过程与结果。建议在文末获取Notebook版本原创 2020-09-23 13:58:48 · 579 阅读 · 0 评论 -
腾讯微博即将退出舞台,爬取近十年腾讯微博数据,发现转折点竟在这一年!
前言你用过腾讯微博吗?9月4日,腾讯微博团队突然发布公告称,将于9月28日停止服务和运营,此条消息一出,新浪微博立马安排了一条热搜并引发网友热议!部分用户很震惊腾讯微博居然关了,也有些用户很震惊腾讯微博居然还活着,还有部分用户甚至不知道腾讯微博的存在,腾讯微博已经被淹没在互联网的长流中,但互联网是有记忆的,本文就将通过Python爬取历史数据,尝试探索背靠数亿流量的腾讯微博是如何一步步退出舞台。为了研究腾讯微博的历史数据,很自然的就想到从网页入手,但是让人遗憾的是,虽然官方公告说9月28日正式停止运原创 2020-09-12 11:18:34 · 1953 阅读 · 0 评论 -
微信群总是有人发广告?看我用Python写一个自动化机器人消灭他!
写在前面微信群牛皮癣,指的是在微信群里面恶心群发小广告的用户,是微信群主最痛恨的一波人。如果熟悉早起的读者可以知道我有一个技术交流群,但是自从建群以来就饱受小广告的困扰。他们伪装成正常人的样子混进群然后不停的发送广告轰炸,严重的打乱了群内的技术交流气氛???? 或者是一声不吭的去骚扰每一个群成员???? 虽然不清楚是什么能够驱使他们这样不折不扣的努力成为最强微信群牛皮癣(可能是钞能力),但是在太多次的骚扰之后,我决定拿起Python消灭这些小广告。第一回合其实实现思路很简单,总共分两步原创 2020-09-09 15:46:39 · 2144 阅读 · 0 评论 -
用Python打造一款文件搜索工具,所有功能自己定义!
一、前言大家好,又到了Python办公自动化系列。在日常的办公中,从一堆不同格式的文件(夹)中找到我们需要的文件应该是最频繁使用的操作,不论你是凭着记忆去找还是借助软件,本文将分享「如何使用Python制作一款简易的文件搜索工具」本文将基于几个常用的需求来讲解使用Python来制作搜索文件脚本的主要方法二、扫描路径内的内容有些时候我们会希望在当前文件夹的成百上千个文件中快速找到需要的文件,如果这个文件夹又包括很多个子文件夹,并不需要程序进去查找而无端耗费资源。这就是典型的「扫描一层搜原创 2020-09-01 19:39:44 · 504 阅读 · 0 评论 -
如何用Python快速优雅的批量修改Word文档样式?
一、前言大家好,又到了办公自动化系列!之前讲过很多基于Excel的数据及样式调整案例,今天分享一个Python操作Word的真实自动化需求实现过程:「使用Python批量修改Word样式」主要将涉及 os模块综合应用 glob模块综合应用 docx模块读写Word文档及样式修改 二、需求描述手上现有若干份财务分析报告的Word文档,如下:每一份Word文档中的内容如下:为了方便后续审阅,需要将所有文档中所有含有资金的语句标红加粗,如图所示三、步骤分析和前原创 2020-08-29 16:35:35 · 1466 阅读 · 0 评论 -
多图+代码 | 详解Python操作Excel神器openpyxl的各种操作!
前言大家好,在之前的十几篇办公自动化系列文章中,我们大多是以真实的案例需求来讲解Python如何进行自动化办公操作,并且多次使用到openpyxl来处理表格,今天我们就来详细的盘点Python操作Excel神器openpyxl的各种操作!“本文将以详细图表/代码的形式讲解如何对Excel进行读取、写入及样式调整,可以当成速查手册使用,随用随查,建议收藏!”安装openpyxl是一个非标准库,因此需要自行安装,安装过程并不困难,Windows/Mac用户均可以在命令行(CMD)/终端(Te原创 2020-08-28 09:35:05 · 1203 阅读 · 1 评论 -
10行Python代码自动清理电脑内重复文件,解放双手!
前言大家好,又到了Python办公自动化系列。今天分享一个系统层面的自动化案例:「给定一个文件夹,使用Python检查给定文件夹下有无文件重复,若存在重复则删除」主要涉及的知识点有: os模块综合应用 glob模块综合应用 利用filecmp模块比较两个文件 步骤分析该程序实现的逻辑可以具化为:遍历获取给定文件夹下的所有文件,然后通过嵌套循环两两比较文件是否相同,如果相同则删除后者。实现问题的关键就变成了????如何判断两个文件是否相同?原创 2020-08-21 08:53:52 · 441 阅读 · 0 评论 -
Python+Excel+Word一秒制作百份合同
前言大家好,又到了Python办公自动化系列。今天我们继续分享一个真实的办公自动化需求:如何使Python+Excel+Word批量生成指定格式内容的合同。主要涉及的知识点有:openpyxl模块的综合运用与Word文档的两种遍历逻辑。需求描述你是乙方建筑公司,手上有一份空白合同模板的Word文件,如下图:另外还有一份Excel合同信息表,其中是所有甲方(发包人)在合同中需要填写的内容可见一行为一个公司的全部信息,现在需要把Excel中每一个公司的信息填入空白Word合同模板中,生成各公原创 2020-08-15 07:28:09 · 1327 阅读 · 1 评论 -
只需6行代码,Python将PPT转为Word!
大家好,又到了Python办公自动化系列。本文将讲解如何将文字从PPT中提取出来并写入Word,主要将涉及如何使用python-pptx和python-docx交互操作word和ppt文件!本文依旧来源于真实的办公自动化需求!一、需求说明img有一份如图所示的ppt,包含了Python的介绍。现在需要将PPT中的文字都提取出来并写入Word中,如下图img二、涉及知识代码实际上非常简单,基于python-pptx和python-docx两个模块即可,核心代码只有6行。但需原创 2020-08-10 15:39:53 · 2020 阅读 · 0 评论 -
老板让我从几百个Excel中查找数据,我用Python一分钟搞定!
大家好,又到了Python办公自动化系列。今天分享一个真实的办公自动化需求,大家一定要仔细阅读需求说明,在理解需求之后即可体会Python的强大!一、需求说明首先我们来看下今天的需求,有一份档案记录总表的Excel工作簿, 每天会根据当天日期建立新表,每天的表格内包含所有档案信息,同时也有可能会添加新的档案名。同个年度的总表在年末可能会有两、三百个工作表,同时每个表中可能也存在千余份档案信息。表格形式如下(为了直观呈现本例以7个工作表和十余份档案的形式呈现)需要完成的操作:为了方便审查特定档案信息原创 2020-08-03 09:35:39 · 1042 阅读 · 0 评论 -
爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别
前言在我们写爬虫的过程中,目标网站常见的干扰手段就是设置验证码等,本就将基于Selenium实战讲解如何处理弹窗和验证码,爬取的目标网站为某仪器预约平台可以看到登录所需的验证码构成比较简单,是彩色的标准数字配合简单的背景干扰****因此这里的验证码识别不需要借助人工智能的手段,可直接利用二值法对图片处理后交给谷歌的识别引擎tesseract-OCR即可获得图中的数字。注:selenium 和 tesseract 的配置读者可自行搜索,本文不做介绍)Python实战首先导入所需模块import原创 2020-07-28 09:54:07 · 1724 阅读 · 5 评论 -
NumPy进阶80题完整版|附Notebook版本下载
前言大家好,NumPy进阶修改80题现在已经全部更新完毕,80道习题涵盖了NumPy中数组创建、访问、筛选、修改、计算等常用操作,如果不熟悉NumPy的读者可以刷一遍,因为里面的代码大多拿走就能用,所以如果你已经了解NumPy的基本操作,我更建议将这80题当成速查手册使用,随用随查!本文共分为两个部分:完整版NumPy80题Notebook版下载方式完整版80题1.导入并查看NumPy版本import numpy as npprint(np.__version__)1.15.42.原创 2020-07-22 10:14:49 · 1127 阅读 · 0 评论 -
Python办公自动化|批量提取Excel数据
大家好,又到了Python办公自动化系列。今天我们来讲解一个比较简单的案例,使用openpyxl从Excel中提取指定的数据并生成新的文件,之后进一步批量自动化实现这个功能,通过本例可以学到的知识点: openpyxl模块的运用 glob模块建立批处理 数据源:阿里云天池的电商婴儿数据(可自行搜索并下载,如果要完成进阶难度可直接将该数据Excel拷贝999次即可,当然这个拷贝可以交给代码来实现)需求说明初级难度:提取电商婴儿数据.xlsx中购买数buy_mo...原创 2020-07-19 11:41:44 · 1557 阅读 · 0 评论 -
可视化工具不知道怎么选?深度评测5大Python数据可视化工具
相信很多读者学习Python就是希望作出各种酷炫的可视化图表,当然你一定会听说过Matplotlib、Pyecharts、Seaborn、Plotly、Bokeh这五大工具,本文就将通过真实绘图来深度评测这五个Python数据可视化的库,看看到底这几种工具各有什么优缺点,在制作图表时该如何选择。指标说明为了更清晰的了解这几款用于可视化的Python在作图时的异同,本文将使用同一组数据分别制作多系列条形图来对比,主要将通过以下几个指标来进行评测:数据说明本文使用的数据为Pyecharts中的fak原创 2020-07-14 10:45:42 · 1194 阅读 · 1 评论