pandas 学习笔记-- 数据清洗和转换

Pandas是Python数据分析的标准库,主要使用Series和DataFrame进行数据预处理。本文探讨了如何创建这两种数据结构,通过数组和字典的方式,并介绍了数据清洗和转换的基本操作,包括数据结构的属性如index、column、value和name。虽然只列举了部分操作,但提供了更深入学习pandas的资源链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

         Pandas 是python的一个标准库,在数据预处理方面具有卓越的效果,因而被广泛使用。 Pandas 主要有三种数据结构 Series, DataFrame and Panel,前面两种使用非常广泛,后面一种使用比较少,因而没有关注。本文是对前两种数据类型的学习心得的分享, 有不足之处还希望大牛多多指导。


笔记内容

数据结构创建

数据基本操作

数据清洗和转换


 数据结构创建

创建Series 和DataFrame, 可以采用列表,数组,字典等多种方式,以下分别使用数组和字典创建Series,DataFrame .  

对于创建好的数据结构,通过操作其属性我们可以获得各种数据. 主要有四个属性 分别为 index, column, value, name,  name 主要用在层次索引和数据聚合分组中

创建Series 和DataFrame

 


数据基本操作  

获取df的列标签
也可以通过df.index 获取行索引标签
df.columns   


给行或列修改标签
直接给所有列该标签 df.columns = ('a','b','c','d'),修改单列或单行使用 df.rename(columns={
    
    'a':'aa'})
修改df列为keyd的标签名为test
df.rename(columns={
   
   'keyd':'test'})

df进行取值操作 
基本格式为 df[row, col], 具体对数据进行定位获取数据格式 有三种方式
df.loc[row, col] row&col是行列值的标签, 
df.iloc[row,col] row&col是行列值为数值,
df.ix[row,col]   row&col行列值可以是标签也可以是数值,该格式广泛被使用,可以取代前面两种
比如获取一行数据df.iloc[row2], 获取一列数据df[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值