Pandas总结

本文详细介绍Pandas库中Series和DataFrame的基本操作,包括创建、访问、算数运算、删除、修改等,同时还介绍了数据排序、访问及时间序列处理等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.基本数据结构

         基本的数据结构Series和DataFrame。

         DataFrame数据用Numpy的array保存,可通过DataFrame.values查看原始数据

         DataFrame的每一行和每一列都是一个Series

(1)创建

         pd.Series([4,2,3,4])

         pd.DataFrame([np.random.randn(6,4),columns=list('ABCD'))

(2)访问

         df.iloc[0]

         df.A

         df.ix['three']

         df.shape(属性)

         头几行和后几行

                  df.head(3)

                  df.tail(2)

         访问行索引和列索引

                  df.index

                  df.columns

         统计信息

                  df.describe()

         相关系数与协方差:

                  cov,corr,corrwith。

(3)算数运算

           自动对齐

(4)删除

         删除列del

         删除列或行drop

(5)修改

         重新索引:reindex

         插值处理:method

         缺失值填充:fill_value

(6)函数应用和映射

         行或列应用:frame.apply(f)

         元素级应用:frame.applymap()

(7)缺失值处理

         dropna

         选项how,thresh

(8)层次化索引

         unstack,stack,swaplevel,set_index,reset_index

2.数据排序

(1)名称排序

         df.sort_index(axis=1,ascending=False)

(2)数值排序

         df.sort_values(by='B')

3.数据访问

(1)访问行

         df[3:5]

(2)访问列

         df[['A','B','D']]

(3)某个元素

         df.loc[3,'A']

         df.iloc[3,0]

(4)布尔

         df[df.C>0]

(5)添加

         df['TAG']=['cat','dog','cat','cat','cat','dog']

(6)分组统计

         df.groupby('TAG').sum()

(7)通过by选择一个或多个列排序

(8)排名

         obj.rank()

         选项average,min,max,first

 

4.时间序列

 

5.数据可视化

 

6.文件读写

(1)保存

         df.to_csv()

(2)读取

         pd.read_csv('data.csv',index_col=0)

 

### 关于 Pandas 库的功能总结 Pandas 是一种强大的开源数据分析工具,广泛应用于数据科学领域。以下是其主要功能和使用场景的总结: #### 文件读取与写入 Pandas 提供了多种方法来加载不同类型的文件,例如 CSV、Excel 和 SQL 数据库等。通过 `read_csv` 或 `to_excel` 方法可以轻松实现数据导入导出操作[^1]。 ```python import pandas as pd # 读取CSV文件 data = pd.read_csv('example.csv') # 将DataFrame保存为Excel文件 data.to_excel('output.xlsx', sheet_name='Sheet1') ``` #### 统计分析函数 利用内置的各种统计学函数,能够快速执行描述性统计运算,比如均值 (`mean`)、标准差(`std`) 及其他指标计算[^1]。 ```python # 计算列的平均值 average_value = data['column'].mean() # 获取每列的标准偏差 standard_deviation = data.std() ``` #### 缺失值处理 对于含有空缺项的数据集来说,有效管理这些NA/NaN非常重要。可以通过填充或者删除的方式解决这个问题;另外还可以自定义替换策略满足特定需求[^1]。 ```python # 删除所有包含null值得行 cleaned_data = data.dropna() # 使用指定数值填补丢失的位置 filled_data = data.fillna(value=0) ``` #### 数据可视化基础 虽然Matplotlib才是主流绘图包之一,但Pandas也支持基本图表绘制命令,方便用户初步探索数据分布情况[^1]。 ```python # 制作简单的柱状图展示某字段频次 data['category_column'].value_counts().plot(kind='bar') ``` #### 数据分组与聚合(Group By And Aggregate Functions) 这是非常重要的一个特性,在实际项目里经常需要用到按某些维度分类汇总信息的能力。借助 groupby 函数配合各种 aggregate function 实现灵活多样的业务逻辑转换[^2]。 ```python # 对某一列按照另一列进行分组求和 group_sum = df.groupby(['Category']).sum()['Sales'] ``` #### Series 结构介绍 作为最基本也是最常用的两种容器形式之一(Series & DataFrame),了解它们各自特点有助于更好地组织存储数据对象。其中Series是一维数组型态,并附有索引标签便于访问元素个体成员[^3]。 ```python s = pd.Series([1, 2, 3], index=['a','b','c']) print(s['b']) # 输出结果应为2 ``` 以上就是针对Python编程语言下流行扩展模块——panda的一些核心概念概述及其典型应用场景举例说明文档内容摘录改编而成的信息分享[^2][^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值