- 博客(56)
- 收藏
- 关注
原创 Python让Excel飞起来—批量制作常用图表
案例01 制作柱形图展示数据的对比关系 代码文件:制作柱形图展示数据的对比关系.py 数据文件:员工销售业绩统计表.xlsx 实现代码:import xlwings as xwapp=xw.App(visible=True,add_book=False)workbook=app.books.open(r'C:\Users\Administrator\Desktop\22\员工销售业绩统计表.xlsx')for i in workbook.sheets: chart=i.char
2022-01-14 15:47:32
5245
1
原创 Python让Excel飞起来—批量进行数据分析
案例01 批量升序排序一个工作簿中的所有工作表 代码文件:批量升序排序一个工作簿中的所有工作表.py 数据文件:产品销售统计表.xlsx每个表批量对销售利润进行升序排列:import xlwings as xwimport pandas as pdapp=xw.App(visible=True,add_book=False)workbook=app.books.open(r'C:\Users\MLoong\Desktop\22\产品销售统计表.xlsx')for i in wo.
2022-01-11 18:41:21
3968
4
原创 Python让Excel飞起来—批量处理行、列和单元格
案例01 精确调整多个工作簿的行高和列宽·代码文件:精确调整多个工作簿的行高和列宽.py ·数据文件:销售表(文件夹)除了前面讲解的工作簿和工作表的批量操作,Python还可以对工作表中的行、列和单元格等元素进行批量设置。例如,要调整行高和列宽,可以使用xlwings模块的column_width和row_height属性,再加上for语句,就可以实现批量调整了。 调整为:代码如下:import osimport xlwings as xwfile_pa...
2022-01-08 19:28:46
10769
5
原创 Python让Excel飞起来—批量处理工作薄和工作表
案例01 批量新建并保存工作薄举一反三 批量新建并关闭工作薄案例02 批量打开一个文件夹下的所有工作薄举一反三 列出文件夹下所有文件和子文件夹的名称案例03 批量重命名一个工作薄中的所有工作表举一反三 批量重命名一个工作薄中的部分工作表案例04 批量重命名多个工作薄举一反三 批量重命名多个工作薄中的同名工作表案例05 在多个工作部中批量增加新的工作表举一反三 在多个工作簿中批量删除工作表案例06 批量打印工作薄举一反三 批量打印多个工作薄中的指定工作表
2022-01-06 15:19:06
2982
原创 Python让Excel飞起来—模块
3.2处理文件和文件夹的模块——os3.2.1获取当前运行的Python代码文件路径import ospath=os.getcwd()print(path)'''E:\数据分析师学习\jupyter notebook'''3.2.2列出指定路径下的文件夹包含的文件和文件夹名称import ospath='E:\数据分析师学习\jupyter notebook' #指定路径os.listdir(path) #指定路径下所有文件名3.2.3分离文件主名和扩展名i
2022-01-05 16:54:54
1657
原创 Python模块 Matplotlib的基本用法
目录1. 认识Matploblib1.1 Figure1.2 Axes1.3 Multiple Axes1.4 Axes Vs .pyplot2. 基本绘图2D2.1 线2.2 散点图2.3 条形图2.4 直方图2.6 箱形图2.7 泡泡图2.8 等高线(轮廓图)3 布局、图例说明、边界等3.1区间上下限3.2 图例说明3.3 区间分段3.4 布局3.5 轴相关Matplotlib 是Python中类似MATLAB的绘图工具..
2022-01-04 16:33:39
1552
原创 Seaborn绘图
1.Relational plots(关系图)Seaborn中介绍的第一种类型的图就是Relational plots(关系图),这里翻译一下官网对他的解释:“统计分析是理解数据集中变量如何相互关联以及这些关系如何依赖于其他变量的过程。可视化可能是这个过程的核心部分,因为当数据被正确地可视化时,人类视觉系统可以看到指示某种关系的趋势和模式。”Relational plots(关系图)中主要讨论的是三个seaborn函数。我们最常用的是relplot()。这是一个图形级函数使用两种常用方法可视化统计关系
2021-12-31 21:28:41
3786
原创 Python编程题给你练(附答案)
题11级问题:编写一个程序,它将找到所有这些数字,可被7整除,但不是5的倍数,2000年至3200年(包括在内)。得到的数字应按逗号分隔的顺序打印在一行上。提示:考虑使用range(#begin, #end)方法解决方案:l=[]for i in range(2000,3201): if (i%7==0)&(i%5!=0): l.append(str(i))print(",".join(l))'''输出答案:2002,2009,2016,2023,
2021-12-25 17:56:21
2976
原创 Sklearn专题七:支持向量机SVM-非线性SVM与核函数
核函数能够帮助我们解决三个问题: 第一,有了核函数之后,我们无需去担心 究竟应该是什么样,因为非线性SVM中的核函数都是正定核函数(positive defifinite kernel functions),他们都满足美世定律(Mercer's theorem),确保了高维空间中任意两个向量的点积一定可以被低维空间中的这两个向量的某种计算来表示(多数时候是点积的某种变换)。 第二,使用核函数计算低维度中的向量关系比计算原本的要简单太多了。 第三,因为计算是在原始空间中进行,所以避免了维
2021-12-23 17:35:03
2000
1
原创 Sklearn专题七:支持向量机SVM-线性SVM决策过程的可视化
2.1.4 线性SVM决策过程的可视化 我们可以使用sklearn中的式子来为可视化我们的决策边界,支持向量,以及决策边界平行的两个超平面。1. 导入需要的模块 from sklearn.datasets import make_blobsfrom sklearn.svm import SVCimport matplotlib.pyplot as pltimport numpy as np2. 实例化数据集,可视化数据集X,y = make_blobs(n_samples
2021-12-23 12:11:05
2446
原创 sklearn专题六:聚类算法K-Means
1 概述 1.1 无监督学习与聚类算法 在过去的五周之内,我们学习了决策树,随机森林,逻辑回归,他们虽然有着不同的功能,但却都属于“有监督学习”的一部分,即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。机器学习当中,还有相当一部分算法属于“无监督学习”,无监督的算法在训练的时候只需要特征矩阵X,不需要标签。我们曾经学过的PCA降维算法就是无监督学习中的一种,聚类算法,也是无监督学习的代表算法之一。 聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分
2021-12-22 20:10:25
5108
1
原创 sklearn专题五:用逻辑回归制作评分卡
在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它衡量向别人借钱的人(受信人,需要融资的公司)不能如期履行合同中的还本付息责任,并让借钱给别人的人(授信人,银行等金融机构)造成经济损失的可能性。一般来说,评分卡打出的分数越高,客户的信用越好,风险越小。 这些”借钱的人“,可能是个人,有可能是有需求的公司和企业。对于企业来说,我们按照融资主体的融资用途,分别使用企业融资模型,现金流融资模型,项目融资模型等模型。而对于个人来说,我们有”四张卡“来评判个人的信用程度:A卡,B卡,C
2021-12-21 20:31:20
1101
原创 sklearn专题五:逻辑回归
1 概述1.1 名为“回归”的分类器在过去的四周中,我们接触了不少带“回归”二字的算法,回归树,随机森林的回归,无一例外他们都是区别于分类算法们,用来处理和预测连续型标签的算法。然而逻辑回归,是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来,得要先理解线性回归。线性回归是机器学习中最简单的的回归算法,它写作一个几乎人人熟悉的方程: 被统称为模型的参数,其中被称为截距(intercept),被称为系数(coeff
2021-12-21 14:39:52
1919
原创 sklearn专题四:降维算法
1 概述 1.1 从什么叫“维度”说开来 在过去的三周里,我们已经带大家认识了两个算法和数据预处理过程。期间,我们不断提到一些语言,比如说:随机森林是通过随机抽取特征来建树,以避免高维计算;再比如说,sklearn中导入特征矩阵,必须是至少二维;上周我们讲解特征工程,还特地提到了,特征选择的目的是通过降维来降低算法的计算成本……这些语言都很正常地被我用来使用,直到有一天,一个小伙伴问了我,”维度“到底是什么? 对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个
2021-12-17 19:45:25
3397
原创 sklearn专题三:数据预处理
目录1 概述1.1 数据预处理与特征工程数据挖掘的五大流程:1.2 sklearn中的数据预处理和特征工程2 数据预处理 Preprocessing & Impute2.1 数据无量纲化preprocessing.MinMaxScaler数据归一化preprocessing.StandardScaler数据标准化StandardScaler和MinMaxScaler选哪个?2.2缺失值impute.SimpleImputerBONUS:用Pan..
2021-12-15 15:19:29
3874
原创 sklearn专题二:随机森林
1 概述1.1 集成算法概述集成学习(ensemblelearning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在 现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预 测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成 算法的身影也随处可见,可见其效...
2021-12-13 17:59:03
6090
原创 sklearn专题一:决策树
sklearn之train_test_split()函数各参数含义在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection 中调用train_test_split 函数简单用法如下:X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_stat.
2021-12-10 12:15:14
5752
原创 Power BI时间智能
mDateAdd = calculate(sum('调用的函数'[金额]),dateadd('调用的函数'[日期],-1,MONTH))mPreviousMonth = calculate([金额合计],PREVIOUSMONTH('调用的函数'[日期]))MtD = totalmtd(sum('调用的函数'[金额]),'调用的函数'[日期])...
2021-12-07 18:44:00
2516
原创 Power BI 数据分析核心技术
上下文,从语言的角度看就是指文章上下文的意思,叫语言环境(语境)更好。比如:“很累吗?”这句话是什么意思,要根据当时的对话环境来推断。任何DAX表达式在不同上下文中都可以得到不同结果,上下文就是指计算公式的“环境”。计值上下文分为行上下文和筛选上下文。1、计值上下文之行上下文(迭代处理数据)行上下文,作用是迭代表的行并计算值,存在于迭代函数和计算列中。行上下文不是用来做筛选的,仅向DAX指示使用表的哪一行。下面分别解释计算列和迭代函数中的行上下文。计算列中的行上下文通过迭代计算之后,呈...
2021-12-07 16:09:39
1789
原创 Power BI 数据分析基础
1、Power BI数据分析来了,您准备好了吗?(1)Power BI安装,可以下载安装,也可以在微软应用商店安装。(2)Power Query-M语言,数据清洗。参考课程:《Power BI商业智能分析教程--数据清洗》(3)Power Pivot-DAX语言,数据分析。定义:又名超级数据透视表,PowerPivot是数据透视表的强大“后台”,存在于Excel和Power BI中,以结构化的方式来存储数据,利用计算公式,为报表和可视化图表提供丰富的分析维度和度量。使用Power Piv
2021-12-06 19:18:21
19456
2
原创 DAX表达式 – 汇总分析
DAX表达式DAX表达式:Power Pivot的特有函数集 1. DAX表达式的结果应用在数据透视表中 2. DAX表达式的结果作用于整列或者表中所有行 3. 还需注意以下几点: a. 表名用“''”引用。 b. 字段名(列名)用“[]”引用。 c. 要注意函数表达式中参数的数据类型,尤其是要将“表”与“数值”正确区分。 d. 与Excel公式相同,除了直接在编辑器的公式区域输入公式外还可以通过单击公式编辑栏...
2021-12-06 16:31:40
1778
原创 Power Pivot数据建模与数据汇总分析
一、Power Pivot搭建多维数据模型多维数据模型多维数据模型又叫多维数据集、立方体,指的是相互间通过某种联系被关联在一起的不同类别的数据集合多维数据模型:在咨询公司以及 BI工具厂商的介绍性资料中又被 称为“立方体(Cube)”,在这 些资料中常以一个立体正方形的 形式出现。多维数据集可以从多 角度用数据全面映射某种业务的 实际状况。搭建多维数据集搭建方法:1. 明确表与表之间用于匹配的关键字段2. 在关系图视图模式下选中某个表的关键字段拖拽向另一个表的关键字段注意事项:..
2021-12-03 10:11:16
3471
1
原创 Power Query基础知识
目录M函数表达式M函数基本变量类型自定义函数If表达式结构化数据 – 列表结构化数据 – 记录结构化数据 – 表(1)结构化数据 – 表(2)M函数表达式M函数的注释: 单行注释符为// 多行注释符为/*…..*/ M函数基本表达式: let…in…结构: let用于封装计算结果,并为计算结果命名。 in用于显示结果 例: let Source = Text.Proper("hello world") in ...
2021-12-02 18:30:12
3672
原创 Power Query数据处理
一、使用Power Query连接数据源以Excel为例使用查询编辑器删除各表中前两行 提升各表标题行 纵向合并:将销售一表与销售二表纵向合并为销售总表 横向合并:将产品分类表中信息合并到销售总表中 复制分组表:将销售总表进行复制,复制表表名为分组表 在分组表中提取季度信息 分组依据:以产品类型与季度为分组依据,汇总商机数与商机金额 排序: 按照产品类型与季度的升序顺序进行排序行列的识别:字段:识别列,不能重复 记录:主键识别行字段:.
2021-11-30 18:41:04
2551
原创 Power BI 简介
目录1.1Power BI系列组件介绍1.2Power BI 系列功能介绍1.3生成可视化报告1.4零售案例1.5Power BI的主要特征1.6Power BI 软件安装Power Query补充非关系型表结构数据Power Query 基本变量类型结构化数据—列表结构化数据—记录结构化数据—表(1)结构化数据—表(2)Power Pivot补充筛选上下文与行上下文:All族函数 – 忽略指定维度的筛选作用1.1Power BI系列..
2021-11-30 14:03:48
3487
原创 数据分析项目-Airbnb业务数据分析
目录第一部:导包和数据导入1.数据清洗:1.1年龄清洗1.2类别型变量(日期)的调整计算用户注册到2019年的时间计算用户第一次预定到2019年的时间1.3将性别型变量转化成哑变量(gender)1.4删除2个日期变量,可以根据数据类型来进行drop2.建立模型3.模型评估与优化本例中将使用Airbnb的数据。Airbnb是一个旅行服务短期租赁的社区,它拥有广泛的用户出行场景数据,通过这些数据,锁定潜在的目标客群并制定相应的营销策略是Airbnb业务发展的基石。.
2021-11-29 17:06:50
1111
原创 数据分析项目-大选献金数据分析
目录需求:1.加载数据,查看数据的基本信息2.指定数据截取,将如下字段的数据进行提取,其他数据舍弃3.对新数据进行总览df.info(),查看是否存在缺失数据4.用统计学指标快速描述数值型属性的概要。df.describe()5.空值处理。可能因为忘记填写或者保密等等原因,相关字段出现了空值,将其填充为NOT PROVIDE6.异常值处理。将捐款金额<=0的数据删除7.新建一列为各个候选人所在党派party8.查看party这一列中有哪些不同的元素9.统计p..
2021-11-28 20:52:03
1126
原创 数据分析项目-App Store评分数据案例
案例导入如今想在手机应用商店上成为成功的应用越来越难,对App下载和评分数据的分析成为帮助App开发者获取和留存用户的重要工具。Play商店应用数据具有巨大的潜力,可以推动应用制作业务取得成功。可以为开发人员提供可操作的见解,以便开发和捕获移动市场。我们想分析3个问题收费和免费的App都集中在哪些类别? 收费App的价格分布是如何的?不同类别的价格分布是怎样的? App文件的大小和价格以及用户评分之间有关系吗?本课程分析流程核心变量解释“id” : 苹果给提供的APP ..
2021-11-28 17:59:48
1409
原创 数据分析项目-宝洁销售额预测分析
背景及思路背景介绍对于宝洁这样的快消品企业,重要的数据应用:1.对商超门店的销售额做出精准预测2.量化自身所能控制的各种促销因素所能产生的效果3.对营销资源做出合理规划聚合数据在本例中,通过回归分析实现对各类因素投入产出对比出评估分析数据电视广告、线上、线下、门店内。微信渠道等促销投入和销售额下列数据均以月为观测窗口:Revenue 门店销售额Reach 微信推送次数Local_tv本地电视广告投入Online 线上广告投入Instore...
2021-11-27 13:02:49
3960
8
原创 数据分析项目-用户消费行为分析
目录导入及分析第一部分:数据清洗导包数据加载&分析数据数据清洗第二部分:按月数据分析分析方向:用户、订单、消费趋势消费趋势的分析1. 每月的消费总金额2. 每月的消费次数3. 每月的产品购买量4. 每月的消费人数(去重)5. 将上述趋势分析用透视表展示(pivot_table)第三部分:用户个体消费数据分析1. 用户消费金额和消费次数的描述统计2.用户消费金额和消费次数的散点图3. 用户消费金额的分布图(二八法则)4. 用户消.
2021-11-25 11:50:55
7295
4
原创 数据分析项目-人口分析
目录需求:1.导入文件,查看原始数据2.将人口数据和各州简称数据进行合并3.将合并的数据中重复的abbreviation列进行删除4.查看存在缺失数据的列5.找到有哪些state/region使得state的值为NaN,进行去重操作6.为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN7.给对应的 空值赋值8.合并各州面积数据areas9.我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行10....
2021-11-23 16:36:40
783
原创 数据分析项目-股票数据分析
tushare财经数据接口包pip install tushare 作用:提供相关指定的财经数据 相关文档:Tushare -财经数据接口包需求:股票分析使用tushare包获取某股票的历史行情数据。tushare财经数据接口包,基于该模块可以获取任意股票的历史交易数据 pip install tushare数据处理使用tushare包获取某股票的历史行情数据df = ts.get_k_data(code='600519',start='2010-01-10')df的持.
2021-11-23 13:11:33
2933
原创 数据科学库考核-matplotlib、numpy、pandas
目录(一)第一考核点:编程题1.创建一个长度为10的一维全为0的ndarray对象,然后让第5个元素等于12.创建一个元素为从10到49的ndarray对象,使用随机整数完成3.将第2题的所有元素位置反转4.用np.random.random创建一个10*10的ndarray对象,并打印出最大最小元素5.创建一个范围在(0,1)之间的长度为12的等差数列6.创建一个长度为10的随机数组并排序7.创建一个长度为10的随机数组并将最大值替换为08.正则化一个5*5随机矩阵..
2021-11-22 17:09:13
3847
转载 数据科学-pandas的时间序列
导入现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况,应该怎么做呢?数据来源:https://www.kaggle.com/mchirico/montcoalert/dataimport pandas as pdimport numpy as npfrom matplotlib import pyplot as pltdf = pd.read_csv("./911.c
2021-11-21 17:23:35
332
原创 数据科学-pandas的分组和聚合
导入现在我们有一组关于全球星巴克店铺的统计数据,如果我想知道美国的星巴克数量和中国的哪个多,或者我想知道中国每个省份星巴克的数量的情况,那么应该怎么办?思路:遍历一遍,每次加1 ???数据来源:https://www.kaggle.com/starbucks/store-locations/data在pandas中类似的分组的操作我们有很简单的方式来完成df.groupby(by="columns_name")那么问题来了,调用groupby方法之后返回的是什么内容?...
2021-11-21 11:36:53
725
原创 数据科学-pandas
目录导入为什么要学习pandas什么是pandaspandas的基本操作pandas的常用数据类型pandas之Series创建pandas之Series切片和索引pandas之读取外部数据pandas之DataFramepandas之取行或者列pandas之locpandas之ilocpandas之布尔索引pandas之字符串方法数据处理缺失数据的处理pandas常用统计方法导入为什么要学习pandasnumpy已...
2021-11-20 18:39:44
2832
原创 数据科学-Numpy数组基本操作
目录numpy索引和切片numpy三元运算符numpy中的clip(裁剪)numpy中的nan和infnumpy中常用统计函数总结数组的拼接数组的行列交换numpy索引和切片In [24]: t2Out[24]:array([[ 0, 1, 2, 3, 4, 5], [ 6, 7, 8, 9, 10, 11], [12, 13, 14, 15, 16, 17], [18, 19, 20, 21, 2...
2021-11-18 17:00:01
763
原创 数据科学-Matplotlib(直方条形和散点作业)
假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,15,11,15,5,13,17,10,11,13,
2021-11-17 17:08:08
348
原创 数据科学-Matplotlib(折线图作业)
假设大家在30岁的时候,根据自己的实际情况,统计出来了从11岁到30岁每年交的女(男)朋友的数量如列表a,请绘制出该数据的折线图,以便分析自己每年交女(男)朋友的数量走势a = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]要求: y轴表示个数 x轴表示岁数,比如11岁,12岁等# -*-coding:utf-8-*-from matplotlib import pyplot as pltfrom matplotlib import...
2021-11-17 11:23:09
1003
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人