pandas(02 pandas基本功能和描述性统计)

 前面内容: pandas(01 入门)

目录

一、Python Pandas 基本功能

1.1Series基本功能

1.2DataFrame基本功能

二、Python Pandas 描述性统计

2.1 常用函数* 

2.2 汇总数据(describe)*

一、Python Pandas 基本功能

到目前为止,我们已经学习了三种Pandas数据结构以及如何创建它们。我们将主要关注DataFrame对象,因为它在实时数据处理中非常重要,并讨论其他一些数据结构。

1.1Series基本功能

Sr.No. 属性或方法 & 说明
1 axes(轴) 返回行轴标签的列表
2 dtype(数据类型) 返回对象的dtype。
3 empty(空) 返回True,如果_series——是空的。
4 ndim(维度) 返回基础数据的维数的数量,按定义1。
5 size(大小) 返回基础数据中元素的数量。
6 values(值) 返回级数作为ndarray。
7 head() 返回最前n行。
8 tail() 返回最后n行。

现在让我们创建一个Series,并查看上面列出的所有属性操作。

例1(先运行,运行结果中有提示辅助理解):

import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(4))
print(s)
print('-'*25,'返回系列的标签列表','-'*25)
print(s.axes)
print('-'*25,'返回一个布尔值,对象是否为空,True表示对象为空','-'*25)
print(s.empty)
print('-'*25,'返回对象的维度','-'*25)
print(s.ndim)
print('-'*25,'返回系列的大小(长度)','-'*25)
print(s.size)
print('-'*25,'以数组形式返回系列中的实际数据','-'*25)
print(s.values)
print('-'*25,'最前两行','-'*25)
print(s.head(2))
print('-'*25,'最后两行','-'*25)
print(s.tail(2))

运行结果: 

1.2DataFrame基本功能

现在让我们了解什么是DataFrame的基本功能。以下表格列出了帮助实现DataFrame基本功能的重要属性或方法。

编号 属性或方法 & 描述
1 T 将行和列进行转置
2 axes(轴) 返回一个列表,其中包含行轴标签和列轴标签作为唯一成员。
3 dtypes 返回此对象中的数据类型
4 empty(空) 如果NDFrame完全为空[没有任何项目],则为True;如果任何轴的长度为0,则为True。
5 ndim(维度) 轴/数组维度的数量。
6
### 使用 Pandas 进行描述性统计分析 Pandas 提供了多种功能来执行描述性统计分析,这些工具可以帮助快速了解数据集的主要特征。以下是具体的方法: #### 1. 计算基本统计数据 Pandas 的 `DataFrame` `Series` 对象提供了内置函数用于计算常见的描述性统计量,例如均值、中位数、标准差等。 ```python import pandas as pd import numpy as np # 创建示例 DataFrame data = {'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]} df = pd.DataFrame(data) # 计算均值 mean_values = df.mean() print(mean_values) # 计算中位数 median_values = df.median() print(median_values) # 计算标准差 std_deviation = df.std() print(std_deviation) ``` 上述代码展示了如何通过调用 `.mean()`、`.median()` `.std()` 方法分别获取每列的均值、中位数标准差[^1]。 #### 2. 获取完整的描述性统计摘要 可以使用 `describe()` 函数一次性获得多个重要的统计指标,包括计数、均值、最小值、最大值以及四分位数。 ```python summary_stats = df.describe() print(summary_stats) ``` 此方法适用于数值型数据,并返回一个包含多维度统计信息的结果表[^2]。 #### 3. 自定义权重下的加权平均值 如果需要考虑不同样本点的重要性,则可以通过 NumPy 来实现加权平均值的计算。 ```python a = [70, 70, 70] weighted_avg = np.average(a, weights=[3, 3, 4]) print(weighted_avg) ``` 这里利用了 NumPy 库中的 `np.average` 函数并指定参数 `weights` 实现加权操作[^4]。 #### 4. 数据筛选与排序后的统计分析 对于复杂的数据处理需求,比如先按照某些条件过滤再做进一步统计或者调整显示顺序等情况,可结合其他技术手段完成任务。 ```python filtered_df = df[df['A'] > 2] sorted_filtered_df = filtered_df.sort_values(by=['A', 'B'], ascending=[False, True]) final_summary = sorted_filtered_df.describe() print(final_summary) ``` 这段脚本首先基于特定逻辑选出符合条件的部分记录;接着重新排列它们以便更好地观察趋势变化最后才应用 describe 得到最终结论[^3]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值