pandas 常用的数学统计方法 describe()

本文介绍了pandas库中DataFrame和Series对象的describe()方法,该方法用于计算基本的统计量,包括计数、平均值、标准差等,是数据分析中常用的统计方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                                          pandas 常用的数学统计方法 describe()

 

1、定义:describe() 针对 Series 或各 DataFrame 列计算总统计值

2、示例:

import pandas as pd

student_info = pd.read_csv("F:/人工智能/科学计算库/files/student_info.csv")
print(student_info)
print("===========================")
print(student_info.describe())


# 运行结果:
Chinese   Math  English
0        88   11.0     22.0
1        33    NaN     30.0
2        85   32.0     90.0
3        45   39.0      NaN
4        11  100.0    103.0
5        88   33.0     74.0
6        85   39.0     90.0
7        88   11.0     22.0
8        33    NaN     30.0
9        85   32.0 
<think>好的,用户想了解Pandas库中Series方法的用法或功能,需要一个使用指南。首先,我得回忆一下Pandas Series的基本概念和常用方法,然后结合用户提供的引用资料来组织内容。 首先,用户的问题是关于Series的方法和使用指南,所以需要先介绍Series是什么,然后分点讲解常用方法。用户给出的引用提到了矢量化操作、数据清洗(处理缺失值、重复数据、数据转换)、以及填充缺失值的例子,这些都需要涵盖进去。 接下来,我应该按照逻辑结构来组织内容。可能的结构是:创建Series、常用操作方法(包括矢量化运算、条件过滤、统计计算)、数据清洗方法(处理缺失值、去重、类型转换)、索引与切片,以及实际应用示例。每个部分需要给出代码示例,并引用用户提供的参考资料中的例子,比如引用[2]中的矢量化操作和引用[3]中的处理缺失值。 需要确保所有行内数学表达式使用$...$格式,比如在统计方法中提到标准差时用$\sigma$。独立公式可能用不到,但如果有的话要用$$...$$。同时,生成相关问题时要考虑用户可能进一步想知道的内容,比如性能优化、与其他数据结构的比较、实际应用场景等。 检查是否有遗漏的常用方法,比如apply()函数、排序、索引操作等。另外,要确保代码示例正确,比如填充缺失值的例子是否正确使用了fillna()和mean(),矢量化操作是否正确展示了series * 2。 可能用户需要的是实用指南,所以步骤要清晰,例子要简洁明了。同时,注意引用标记的位置,比如在提到矢量化操作时引用[^2],处理缺失值时引用[^3],导入库的部分引用[^1]。 最后,生成的相关问题应该覆盖Series的高级用法、与其他结构的对比、性能优化、实际案例等,帮助用户深入学习和应用。</think>### Pandas Series 方法使用指南 Pandas Series 是带有标签的一维数组,支持多种数据操作和数学运算。以下为关键方法分类及使用说明: --- #### 一、Series 创建与基础属性 1. **创建方法** ```python import pandas as pd # 通过列表创建 s1 = pd.Series([1, 3, 5, 7]) # 通过字典创建(键为索引) s2 = pd.Series({'A': 10, 'B': 20, 'C': 30}) ``` 2. **基础属性** ```python s.index # 获取索引 s.values # 获取值数组 s.dtype # 数据类型 ``` --- #### 二、常用操作方法 1. **矢量化运算** 支持直接对整个 Series 进行数学运算,无需显式循环[^2]: ```python s = pd.Series([1, 3, 5]) result = s * 2 + 5 # 输出: [7, 11, 15] ``` 2. **条件过滤** ```python filtered = s[s > 3] # 筛选值大于3的元素 ``` 3. **统计计算** ```python s.mean() # 均值 $\mu$ s.std() # 标准差 $\sigma$ s.describe() # 汇总统计(计数、均值、分位数等) ``` --- #### 三、数据清洗方法 1. **处理缺失值** 使用 `fillna()` 填充缺失值,`dropna()` 删除缺失值[^3]: ```python s = pd.Series([10, np.nan, 30, np.nan]) s_filled = s.fillna(s.mean()) # 用均值填充 ``` 2. **去重操作** ```python s = pd.Series([2, 2, 3, 5]) s_unique = s.unique() # 输出: [2, 3, 5] ``` 3. **类型转换** ```python s.astype('float') # 强制转换数据类型 ``` --- #### 四、索引与切片 1. **标签索引** ```python s = pd.Series([10, 20, 30], index=['A', 'B', 'C']) s['B'] # 输出: 20 ``` 2. **位置切片** ```python s.iloc[1:3] # 获取第2-3个元素 ``` --- #### 五、实际应用示例 **场景:计算学生成绩标准差** ```python scores = pd.Series([85, 90, 78, np.nan, 92]) scores_clean = scores.fillna(scores.mean()) # 填充缺失值 std_dev = scores_clean.std() # 计算标准差 $\sigma$ ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值