
Python数据分析与应用
文章平均质量分 90
Python数据分析与应用
清木!
前路浩浩荡荡,万物皆可期待
展开
-
Python数据分析与应用目录及课后习题答案
1.数值型特征的描述性统计——NumPy中的描述性统计函数。5、agg方法中使用的自定义函数含Numpy中的函数。(2)DataFrame的loc、iloc访问方式。7、使用agg方法对分组数据使用不同的聚合函数。agg函数和aggregate函数的参数说明。3、使用agg方法求不同字段的不同数目统计量。1、查看访问DataFrame中的数据。1、使用agg求出当前数据对应的统计量。1、查看数据的维度、形状、元素的个数。2、使用agg分别求字段的不同统计量。2、更改DataFrame中的数据。原创 2023-04-20 10:37:41 · 14224 阅读 · 0 评论 -
1 Python数据分析概况
狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。3.SciPy——专门解决科学计算中各种标准问题域的模块的集合。原创 2023-05-07 16:06:45 · 581 阅读 · 0 评论 -
2.1 掌握NumPy数组对象ndarray
ndarrary:NumPy库的心脏ndarray:多维数组,具有矢量运算能力,且快速、节省空间可对整组数据进行快速运算的标准数学函数、线性代数、随机数生成等功能NumPy提供了两种基本的对象:ndarray和ufunc。narray是存储但艺术组类型的多维数组。ufunc是能够对数组进行处理的函数。原创 2023-05-07 22:25:21 · 876 阅读 · 0 评论 -
2.2 掌握 NumPy 矩阵与通用函数
ufunc函数是针对数组进行操作的,并且都以NumPy数组作为输出,因此不需要对数组中的每一个元素都进行操作。2、使用matrix函数创建矩阵:matr2 = np.matrix([[1, 2, 3],[4, 5, 6],[7, 8, 9]])3、有很多时候会根据小的矩阵创建大的矩阵,即将小矩阵组合成大矩阵。(3)如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时,这个数组能够用来计算,否则出错。(4)当输入数组的某个轴的长度为1时,沿着此轴运算时都用此轴上的第一组值。矩阵相乘:matr1。原创 2023-05-08 19:18:51 · 990 阅读 · 0 评论 -
2.3 利用NumPy进行统计分析
repeat函数主要有三个参数,参数“a”是需要重复的数组元素,参数“repeats”是重复次数,参数“axis”指定沿着哪个轴进行重复,axis = 0表示按行进行元素重复;sort函数也可以指定一个axis参数,使得sort函数可以沿着指定轴对数据集进行排序。这两个函数的主要区别在于,tile函数是对数组进行重复操作,repeat函数是对数组中的每个元素进行重复操作。np.lexsort((a,b,c))tile函数主要有两个参数,参数“A”指定重复的数组,参数“reps”指定重复的次数。原创 2023-05-09 22:12:31 · 1001 阅读 · 0 评论 -
3.1 掌握绘图基础语法与常用参数
Matplotlib库介绍Matplotlib是Python中最常用的可视化工具之一,可以非常方便地创建海量类型的2D图表和一些基本的3D图表,可根据数据集(DataFrame,Series)自行定义x,y轴,绘制图形(线形图,柱状图,直方图,密度图,散布图等等),能够满足大部分需要。Matplotlib最早是为了可视化癫痫病人的脑皮层电图相关的信号而研发,因为在函数的设计上参考了MATLAB,所以叫做Matplotlib。官方文档: https://matplotlib.org/原创 2023-05-10 12:23:01 · 1290 阅读 · 0 评论 -
3.2 分析特征间的关系
如果有3个特征,若其中一个特征为类别型,散点图改变不同特征的点的形状或者颜色,即可了解两个数值型特征和这个类别型之间的关系。(scatter diagram)又称为散点分布图,是以一个特征为横坐标,另一个特征为纵坐标,利用坐标点(散点)的分布形态反映特征间的统计关系的一种图形。plot函数一次可以接收多组数据,添加多条折线图,同时分别定义每条折线图的颜色、点的形状和类型,还可以将这三个参数连接在一起,用一个字符串表示。值是由点在图表中的位置表示,类别是由图表中的不同标记表示,通常用于比较跨类别的数据。原创 2023-06-07 16:42:00 · 1570 阅读 · 0 评论 -
3.3 分析特征内部数据分布与分散状况
通过直方图分析2000年第一季度和2017年第一季度的三大产业的国民生产总值,可以发现各产业绝对数值之间的关系,并通过对比发现产业结构的变化。箱线图利用数据中的五个统计量(下边缘、下四分位数、中位数、上四分位数和上边缘)来描述数据,它也可以粗略地看出数据是否具有对称性、分布的分散程度等信息,特别可以用于对几个样本的比较。直方图可以发现分布表无法发现的数据模式、样本的频率分布和总体的分布。通过分析2000年与2017年不同的产业和行业在国民生产总值中的占比,可以发现我国的产业结构变化和行业变迁。原创 2023-06-07 21:46:44 · 1141 阅读 · 0 评论 -
4.1 读写不同数据源的数据
(table_name, con, schema = None, index_col= None, coerce_float = True, columns = None)只能读取数据库的某一个表格,不能实现查询的操作。(sql, con, index_col = None, coerce_float = True, columns = None)是两者的综合,既能读取数据库中的某一个表,又能实现查询操作。将文件存储为Excel文件,可以使用to_excel方法。原创 2023-04-03 16:36:34 · 642 阅读 · 0 评论 -
4.2 掌握DataFrame的常用操作
【代码】4.2 掌握DataFrame的常用操作。原创 2023-04-04 18:58:14 · 2496 阅读 · 0 评论 -
4.3 转换与处理时间数据
Timedelta是时间相关的类中的一个异类,不仅能够使用正数,还能够使用负数表示单位时间,例如1秒,2分钟,3小时等。Timestamp作为时间类中最基础的,也是最为常用的类型,在多数情况下,时间相关的字符串都会转换成为Timestamp。,需要通过freq参数指定时间间隔,常用的时间间隔有Y为年,M为月,D为日,H为小时,T为分钟,S为秒。在多数涉及时间相关的数据处理,统计分析的过程中,需要提取时间中的年份,月份等数据,使用对应的Timestamp类属性就能够实现这一目的。原创 2023-04-19 11:06:53 · 520 阅读 · 0 评论 -
4.4 使用分组聚合进行组内计算
在agg方法可传入自定义的函数。## 自定义函数求两倍的和 def DoubleSum(data) :使用自定义函数需要注意的是NumPy库中的函数np.mean,np.median,np.prod,np.sum,np.std,np.var能够在agg中直接使用,但是在自定义函数中使用NumPy库中的这些函数,如果计算的时候是单个序列则会无法得出想要的结果,如果是多列数据同时计算则不会出现这种问题。原创 2023-04-20 10:14:08 · 1072 阅读 · 0 评论 -
4.5 创建透视表与交叉表
数据透视表(Pivot Table)是数据分析中一种常用的工具之一,根据一个或多个键值对数据进行聚合,根据行或列的分组键将数据划分到各个区域。在pandas中,除了可以使用groupby对数据分组聚合实现透视功能外,还提供了更为简单的方法。这里以菜单订单数据为例制作透视表与交叉表,分析不同菜品的销量和金额之间的关系。(1)使用pivot_table函数制作菜品日销量透视表。(2)使用crosstab函数制作菜品销量交叉表。原创 2023-04-20 12:03:17 · 1207 阅读 · 0 评论 -
5.1 合并数据
使用concat函数时,在默认情况下,即axis=0时,concat做列对齐,将不同行索引的两张或多张表纵向合并。在两张表的列名并不完全相同的情况下,可join参数取值为inner时,返回的仅仅是列名交集所代表的列,取值为outer时,返回的是两者列名的并集所代表的列,纵向堆叠外连接示例如图所示。数据分析和处理过程中若出现两份数据的内容几乎一致的情况,但是某些特征在其中一张表上是完整的,而在另外一张表上的数据则是缺失的时候,可以用combine_first方法进行重叠数据合并,其原理如下。原创 2023-06-08 15:10:56 · 2296 阅读 · 0 评论 -
5.2 清洗数据
数据重复会导致数据的方差变小,数据分布会发生较大变化。缺失会导致样本信息减少,不仅增加了数据分析的难度,而且会导致数据分析的结果发生偏差。因此要对数据进行检测,查询是否有和,并且要对这些数据进行适当的处理。原创 2023-06-11 22:09:32 · 901 阅读 · 0 评论 -
5.3 标准化数据
其中max为样本数据的最大值,min为样本数据的最小值,max-min为极差。从运行结果可以发现,数据的整体分布情况并不会随离差标准化而发生改变,原先取值较大的数据,在做完离差标准化后的值依旧较大。通过移动数据的小数位数,将数据映射到区间[-1,1]之间,移动的小数位数取决于数据绝对值的最大值。离差标准化是对原始数据的一种线性变换,结果是将原始数据的数值映射到[0,1]区间之间,转换公式为。➢离差标准化方法简单,便于理解,标准化后的数据限定在[0, 1]区间内。为原始数据的均值,δ为原始数据的标准差。原创 2023-09-18 17:27:35 · 355 阅读 · 0 评论 -
5.4 转换数据
数据分析模型中有相当一部分的算法模型都要求输入的特征为数值型,但实际数据中特征的类型不一定只有数值型,还会存在相当一部分的类别型。原创 2023-09-18 22:16:09 · 229 阅读 · 0 评论 -
5.5 DataFrame.rolling()创建滚动窗口对象
DataFrame.rolling() 是 pandas 中用于创建滚动窗口对象的函数,它可以对时间序列或其他类型的数据进行滚动计算。下面是该函数的一些参数说明:window: 表示滚动窗口的大小,可以是整数,表示窗口的长度,或者一个日期偏移量对象,表示时间窗口的长度。: 可选参数,表示每个滚动窗口中需要具有的非缺失值的最小数量,如果不满足这个条件,则结果将被标记为缺失值。center: 可选参数,表示是否将窗口设置为居中,默认为 False。win_type。原创 2023-12-18 22:01:10 · 671 阅读 · 0 评论 -
6.1 使用scikit-learn构建模型
scikit-learn(简称sklearn)库整合了多种机器学习算法,可以帮助使用者在数据分析过程中快速建立模型,且模型接口统一,使用起来非常方便。同时,sklearn拥有优秀的官方文档,知识点详尽,内容丰富,是入门学习sklearn的最佳内容。开源机器学习库:https://scikit-learn.org/stable/index.html涵盖分类、回归、聚类、降维、模型选择、数据预处理六大模块。原创 2023-09-20 22:08:54 · 692 阅读 · 0 评论 -
6.2 构建并评价聚类模型
上表总共列出了6种评价的方法,其中前4种方法均需要真实值的配合才能够评价聚类算法的优劣,后2种则不需要真实值的配合。但是前4种方法评价的效果更具有说服力,并且在实际运行的过程中在有真实值做参考的情况下,聚类方法的评价可以等同于分类算法的评价。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将它们划分为若干组,划分的原则是组内(内部)距离最小化,而组外(外部)距离最大化,如下图所示。聚类评价的标准是组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。原创 2023-09-21 10:28:47 · 931 阅读 · 0 评论 -
6.3 构建并评价分类模型
分类是指构造一个分类模型,输入样本的特征值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,属于有监督学习。在实际应用场景中,分类算法被用于行为分析,物品识别、图像检测等。原创 2023-09-21 12:41:19 · 351 阅读 · 0 评论 -
6.4 构建并评价回归模型
回归模型的性能评估不同于分类模型,虽然都是对照真实值进行评估,但由于回归模型的预测结果和真实值都是连续的,所以不能够求取Precision、Recall和F1值等评价指标。在回归模型中,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的。回归算法的实现步骤和分类算法基本相同,分为学习和预测2个步骤。每一类又有对应的多种评估方法,能够评价所构建模型的性能优劣。通过这一章的学习,读者基本能够掌握常用的模型构建与评估方法,可在以后的数据分析过程中采用适当的算法并按所介绍的步骤实现综合应用。原创 2023-06-12 12:28:51 · 560 阅读 · 0 评论 -
7 航空公司客户价值分析
R(Recency)指的是最近一次消费时间与截止时间的间隔。通常情况下,最近一次消费时间与截止时间的间隔越短,对即时提供的商品或是服务也最有可能感兴趣。F(Frequency)指顾客在某段时间内所消费的次数。可以说消费频率越高的顾客,也是满意度越高的顾客,其忠诚度也就越高,顾客价值也就越大。M(Monetary)指顾客在某段时间内所消费的金额。消费金额越大的顾客,他们的消费能力自然也就越大,这就是所谓“20%的顾客贡献了80%的销售额”的二八法则。原创 2023-10-06 22:28:45 · 739 阅读 · 0 评论 -
8 财政收入预测分析
财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要特征,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上取决于财政收入的充裕状况。在我国现行的分税制财政管理体制下,地方财政收入不但是国家财政收入的重要组成部分,而且具有其相对独立的构成内容。原创 2023-10-08 15:14:28 · 2152 阅读 · 0 评论 -
9 家用热水器用户行为分析与事件识别
BP神经网络由输入层、一个或多个隐藏层以及输出层构成。同层节点中没有任何耦合,每一层节点的输出只影响下一层节点的输出。网络的学习过程由正向和反向传播两部分组成。反向传播其节点单元特征通常为Sigmoid函数,如下。Sx11e−xSx1e−x1在训练阶段用准备好的样本数据以此通过输入层、隐藏层和输出层,比较输出结果和期望值,若没有达到要求的误差程度或者训练次数,即通过输出层、隐藏层和输入层,来调节权值,以便使网络成为一定适应能力的模型。BP神经网络模型结构如下图所示。原创 2023-10-08 21:14:15 · 1345 阅读 · 1 评论