第五章pandas入门总结

本文详细介绍了Python中Pandas库的使用方法,包括Series和DataFrame数据结构的创建、索引、切片、过滤、删除等操作,以及与NumPy的区别和联系,最后讲解了如何从外部文件读取数据和将数据写入文件。

导入  import pandas as pd

与numpy的联系与区别:pandas是在numpy的基础上完成的,pandas用来处理表格或异质型数据,而numpy用来处理同质性数据

1、pandas数据结构介绍

(1)Series

定义:一维的数组对象,包含一个值序列(values)和 索引(index)

生成:obj=pd.Series([4,7,-5,6])

索引:obj.index

操作

索引和切片obj2['a']  obj2[1]  obj2[2:4]  obj2['b':'d'](左闭右闭)

修改obj2[2]=6  obj2['d']=8 

过滤obj2[obj2>0]大于0的数显示True,其余是False

删除obj2.drop('c')  删除多行obj.drop(['c','d'])

与字典的关系

字典可直接生成序列,产生好的Series的索引将 是字典的键

检测缺失值pd.isnull(obj4)

(2)DataFrame(Series是DataFrame的一列)

DataFrame是数据表,包含已排序的列集合,每一列可以是不同的值类型

生成:data = {'city': ['Xian', 'Xian', 'Xian', 'beijing', 'beijing', 'beijing'],
             'year': [2014, 2015, 2016, 2014, 2015, 2016],
             'pop': [840, 860, 880, 2152, 2171, 2173]}
frame = pd.DataFrame(data)

2、从外部文件读入数据和数据到文件

pd.read_csv('1.csv')

pd.to_csv('2.csv')

 选出前几行:frame.head()默认前5行

索引和切片

行索引frame[:2]前2行

列索引frame2['city']

布尔索引

data = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['Ohio', 'Colorado', 'Utah', 'New York'],
columns=['one', 'two', 'three', 'four'])

data[data<5]=0

轴标签loc  data.loc['Colorado', ['two', 'three']]

整数标签data.iloc[2, [3, 0, 1]]   data.iloc[2]

查看列名frame2.columns行名frame2.index值frame.values

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值