
【Python数据分析】
文章平均质量分 72
Root_Smile
这个作者很懒,什么都没留下…
展开
-
【Python数据分析】案例_销售数据可视化
实现要求:将两个月份的销售数据汇总,计算每一天的销售总额,并可视化展示。2.设计一个抽象类,定义文件读取的相关功能,并使用子类实现具体功能。4.进行数据需求的逻辑计算(计算每一天的销售额)5.通过PyEcharts进行图形绘制。1.设计一个类,可以完成数据的封装。二月份各省销售数据:json格式。一月份各省销售数据:csv格式。3.读取文件,生产数据对象。原创 2024-05-11 10:28:14 · 327 阅读 · 0 评论 -
【Python数据分析】案例_如何统计销售额的最大连续递增和递减天数
【代码】【Python数据分析】案例1.如何统计销售额的最大连续递增和递减天数。原创 2024-07-04 17:38:24 · 183 阅读 · 0 评论 -
【Python数据分析】Pandas_分类对象
通常情况下,数据集中会存在许多同一类别的信息,比如相同国家、相同行政编码、相同性别等,当这些相同类别的数据多次出现时,就会给数据处理增添许多麻烦,导致数据集变得臃肿,不能直观、清晰地展示数据。通过上述示例,您可能会注意到,虽然传递给 Series 四个元素值,但是它的类别为 3,这是因为 a 的类别存在重复。上述示例中,第二个参数值表示类别,当列表中不存在某一类别时,会自动将类别值设置为 NA。对已经分类的数据使用 describe() 方法,您会得到和数据统计相关的摘要信息。命令可以获取对象的类别信息。原创 2024-06-29 13:58:12 · 534 阅读 · 0 评论 -
【Python数据分析】Pandas_数据重采样
Pandas 提供了 resample() 函数来实现数据的重采样。原创 2024-06-29 13:32:21 · 621 阅读 · 0 评论 -
【Python数据分析】Pandas_sample随机抽样
随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数。该函数返回与数据集类型相同的新对象,相当于 numpy.random.choice()。原创 2024-06-28 13:50:05 · 442 阅读 · 0 评论 -
【Python数据分析】Pandas_日期与时间
时间序列(time series),就是由时间构成的序列,它指的是在一定时间内按照时间顺序测量的某个变量的取值序列,比如一天内的温度会随时间而发生变化,或者股票的价格会随着时间不断的波动,这里用到的一系列时间,就可以看做时间序列。当进行数据分析时,我们会遇到很多带有日期、时间格式的数据集,在处理这些数据集时,可能会遇到日期格式不统一的问题,此时就需要对日期时间做统一的格式化处理。下面示例,使用 asfreq() 和 start 参数,打印 “01” ,若使用 end 参数,则打印 “31”。原创 2024-06-27 20:52:48 · 1520 阅读 · 0 评论 -
【Python数据分析】Pandas_concat连接操作
如果要连接 Series 和 DataFrame 对象,有一个最方便、快捷的方法,那就是 append() 方法。上述示中,可以看出行索引 index 存在重复使用的现象,如果想让输出的行索引遵循依次递增的规则,那么需要将 ignore_index 设置为 True。如果想把指定的键与 DataFrame 对象连接,您可以使用 keys 参数来实现。注意:此时的索引顺序被改变了,而且键 keys 指定的键也被覆盖了。如果您想要沿着 axis=1 添加两个对象,那么将会追加新的列。原创 2024-06-20 16:58:58 · 416 阅读 · 0 评论 -
【Python数据分析】Pandas_merge合并操作
Pandas 提供的 merge() 函数能够进行高效的合并操作,这与 SQL 关系型数据库的 MERGE 用法非常相似。从字面意思上不难理解,merge 翻译为“合并”,指的是将两个 DataFrame 数据表按照指定的规则进行连接,最后拼接成一个新的 DataFrame 数据表。参数可以确定 DataFrame 中要包含哪些键,如果在左表、右表都不存的键,那么合并后该键对应的值为 NaN。注意:Pandas 库的 merge() 支持各种内外连接,与其相似的还有 join() 函数(默认为左连接)。原创 2024-06-20 16:32:28 · 2104 阅读 · 0 评论 -
【Python数据分析】Pandas_groupby分组操作
在数据分析中,经常会遇到这样的情况:根据某一列(或多列)标签把数据划分为不同的组别,然后再对其进行数据分析。比如,某网站对注册用户的性别或者年龄等进行分组,从而研究出网站用户的画像(特点)。在 Pandas 中,要完成数据的分组操作,需要使用 groupby() 函数,它和 SQL 的。在划分出来的组(group)上应用一些统计函数,从而达到数据分析的目的,比如对分组数据进行聚合、转换,或者过滤。通过 filter() 函数可以实现数据的筛选,该函数根据定义的条件过滤数据并返回一个新的数据集。原创 2024-06-20 16:20:01 · 2224 阅读 · 0 评论 -
【Python数据分析】Pandas_缺失值处理
稀疏数据,指的是在数据库或者数据集中存在大量缺失数据或者空值,我们把这样的数据集称为稀疏数据集。稀疏数据不是无效数据,只不过是信息不全而已,只要通过适当的方法就可以“变废为宝”。原创 2024-06-20 16:11:57 · 1081 阅读 · 0 评论 -
【Python数据分析】Pandas_聚合函数
可以与聚合函数一起使用,聚合函数指的是对一组数据求总和、最大值、最小值以及平均值的操作,本节重点讲解聚合函数的应用。首先让我们创建一个 DataFrame 对象,然后对聚合函数进行应用。原创 2024-06-18 21:16:20 · 466 阅读 · 0 评论 -
【Python数据分析】Pandas_窗口函数
设置 min_periods=3,表示至少 3 个数求一次均值,计算方式为 (index0+index1+index2)/3,而 index3 的计算方式是 (index0+index1+index2+index3)/3,依次类推。举一个简单的例子:现在有 10 天的销售额,而您想每 3 天求一次销售总和,也就说第五天的销售额等于(第三天 + 第四天 + 第五天)的销售额之和,此时窗口函数就派上用场了。expanding() 又叫扩展窗口函数,扩展是指由序列的第一个元素开始,逐个向后计算元素的聚合值。原创 2024-06-18 21:04:46 · 1444 阅读 · 0 评论 -
【Python数据分析】Pandas_统计函数
rank() 按照某种规则(升序或者降序)对序列中的元素值排名,该函数的返回值的也是一个序列,包含了原序列中每个元素值的名次。Pandas 提供了计算相关性的三种方法,分别是 pearson(default)、spearman() 和 kendall()。默认情况下,pct_change() 对列进行操作,如果想要操作行,则需要传递参数 axis=1 参数。rank() 默认按行方向排名(axis=0),也可以更改为 axis =1,按列排名。同时,该方法也会将缺失值(NAN )自动排除。原创 2024-06-18 20:59:31 · 524 阅读 · 0 评论 -
【Python数据分析】Pandas_loc/iloc用法详解
在数据分析过程中,很多时候需要从数据表中提取出相应的数据,而这么做的前提是需要先“索引”出这一部分数据。虽然通过 Python 提供的索引操作符"[]"和属性操作符"."可以访问 Series 或者 DataFrame 中的数据,但这种方式只适应与少量的数据,为了解决这一问题,Pandas 提供了两种类型的索引方式来实现数据的访问。本节就来讲解一下,如何在 Pandas 中使用 loc 函数和 iloc 函数。原创 2024-06-18 20:52:32 · 801 阅读 · 0 评论 -
【Python数据分析】Pandas_设置数据显示格式
在用 Pandas 做数据分析的过程中,总需要打印数据分析的结果,如果数据体量较大就会存在输出内容不全(部分内容省略)或者换行错误等问题。Pandas 为了解决上述问题,允许你对数据显示格式进行设置。option_context() 上下文管理器,用于临时设置 with 语句块中的默认显示参数。注意:第一个 Print 语句打印 option_context() 设置的临时值。该方法接受一个参数,并将修改后的值设置回默认值。由此可知,默认值显示上限是(60,20)。上述参数项,基本上可以满足我们的需求。原创 2024-06-18 20:44:19 · 1027 阅读 · 0 评论 -
【Python数据分析】Pandas_字符串处理
注意:上述所有字符串函数全部适用于 DataFrame 对象,同时也可以与 Python 内置的字符串函数一起使用,这些函数在处理 Series/DataFrame 对象的时候会自动忽略缺失值数据(NaN)。Pandas 提供了一系列的字符串函数,因此能够很方便地对字符串进行处理。在本节,我们使用 Series 对象对常用的字符串函数进行讲解。检查 Series 中的每个字符,如果字符中包含空格,则返回 True,否则返回 False。如果返回 -1 表示该字符串中没有出现指定的字符。原创 2024-06-18 20:34:53 · 762 阅读 · 0 评论 -
【Python数据分析】Pandas_去重
Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates(),本节对该函数的用法做详细介绍。原创 2024-06-18 16:08:11 · 452 阅读 · 0 评论 -
【Python数据分析】Pandas_sorting排序
Pands 提供了两种排序方法,分别是按标签排序和按数值排序。本节讲解 Pandas 的排序操作。上述示例,行标签和数值元素均未排序,下面分别使用标签排序、数值排序对其进行操作。原创 2024-06-18 15:58:00 · 283 阅读 · 0 评论 -
【Python数据分析】Pandas_iteration遍历
遍历是众多编程语言中必备的一种操作,比如 Python 语言通过 for 循环来遍历列表结构。那么 Pandas 是如何遍历 Series 和 DataFrame 结构呢?我们应该明确,它们的数据结构类型不同的,遍历的方法必然会存在差异。对于 Series 而言,您可以把它当做一维数组进行遍历操作;而像 DataFrame 这种二维数据表结构,则类似于遍历 Python 字典。在 Pandas 中同样也是使用 for 循环进行遍历。通过for。原创 2024-06-17 15:07:49 · 395 阅读 · 0 评论 -
【Python数据分析】Pandas_自定义函数
如何从上述函数中选择适合的函数,这取决于函数的操作对象。下面介绍了三种方法的使用。原创 2024-06-17 15:02:29 · 411 阅读 · 0 评论 -
【Python数据分析】Pandas_reindex重置索引
重置索引(reindex)可以更改原 DataFrame 的行标签或列标签,并使更改后的行、列标签与 DataFrame 中的数据逐一匹配。通过重置索引操作,您可以完成对现有数据的重新排序。如果重置的索引标签在原 DataFrame 中不存在,那么该标签对应的元素值将全部填充为 NaN。原创 2024-06-17 14:55:22 · 1251 阅读 · 0 评论 -
【Python数据分析】Pandas_描述性统计
描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas 库正是对描述统计学知识完美应用的体现,可以说如果没有“描述统计学”作为理论基奠,那么 Pandas 是否存在犹未可知。在 DataFrame 中,使用聚合类方法时需要指定轴(axis)参数。从图可以看出,axis=0 表示按垂直方向进行计算,而 axis=1 则表示按水平方向。原创 2024-06-17 14:48:11 · 1078 阅读 · 0 评论 -
【Python数据分析】Pandas_文件读写操作
在 CSV 文件中指定了一个列,然后使用index_col可以实现自定义索引。原创 2024-06-17 11:29:08 · 508 阅读 · 0 评论 -
【Python数据分析】Pandas_索引
在数据分析的过程中,我们把大部分时间都花费在数据的准备和预处理上,Pandas 作为一个灵活、高效的数据预处理工具,提供了诸多数据处理的方法,分层索引(Multiple Index)就是其中之一,分层索引(或多层索引)是 Pandas 的基本特性,它能够增强 Pands 数据预处理的能力。分层索引(Multiple Index)是 Pandas 中非常重要的索引类型,它指的是在一个轴上拥有多个(即两个以上)索引层数,这使得我们可以用低维度的结构来处理更高维的数据。下面介绍几种创建分层索引的方式。原创 2024-06-17 11:22:26 · 1644 阅读 · 0 评论 -
【Python数据分析】Pandas_初识结构
如果您使用的是 Pandas 0.25 以前的版本,那么您需要掌握本节内容,否则,作为了解内容即可。DataFrame 一个表格型的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表,所谓异构,指的是表格中每列的数据类型可以不同,比如可以是字符串、整型或者浮点型等。Series 结构,也称 Series 序列,是 Pandas 常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系。原创 2024-06-16 19:46:55 · 1171 阅读 · 0 评论 -
【Python数据分析】Pandas_Series如何转变为DataFrame
构造函数将 Series 转换为 DataFrame。在构造函数中,将 Series 作为一个列传递给 DataFrame,并且可以通过指定列名来为 DataFrame 的列命名。方法,它可以将 Series 转换为 DataFrame。该方法可以选择是否为 DataFrame 指定列名。Series 对象提供了一个。原创 2024-06-16 17:24:42 · 1449 阅读 · 0 评论 -
【Python数据分析】Matplotlib的使用
import matplotlib.pyplot as plt函数名称函数作用plt.figure创建一个空白画布,可以指定画布大小,像素figure.add_subplot创建并选中子图,可以指定子图的行数,列数,与选中图片编号plt.title在当前图形中添加标题,可以指定标题的名称、位置、颜色、字体大小等参数。plt.xlabel在当前图形中添加x轴名称,可以指定位置、颜色、字体大小等参数。plt.ylabel在当前图形中添加y轴名称,可以指定位原创 2024-06-14 00:05:43 · 420 阅读 · 0 评论 -
【Python数据分析】Numpy的使用
numpy支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。np.where(condition, x, y),第一个参数为一个布尔数组,第二个参数和第三个参数可以是标量也可以是数组。sorted 并没有修改原来的数组,而是将排序的结果作为参数传递给一个新的数组,而 sort 则在原数组上直接进行了排序。arr[condition],condition为一个条件/多个条件组成的布尔数组。数组的转置/轴对换只会返回源数据的一个视图,不会对源数据进行修改。axis=1为沿横轴排序;原创 2024-06-11 17:11:34 · 649 阅读 · 0 评论 -
【Python数据分析】Pyecharts的使用
是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,数据来源:1960-2019全球GDP数据.csv(本文提供下载)实现要求:将每一年GDP排名前八国家的数据展现出来。下面介绍几种用法,更多用法访问。学习更多图形样式展示,可以访问。原创 2024-05-03 15:09:01 · 845 阅读 · 4 评论 -
【Python数据分析】PySpark的使用
Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据。原创 2024-05-15 21:15:21 · 3159 阅读 · 2 评论