导入 import pandas as pd
与numpy的联系与区别:pandas是在numpy的基础上完成的,pandas用来处理表格或异质型数据,而numpy用来处理同质性数据
1、pandas数据结构介绍
(1)Series
定义:一维的数组对象,包含一个值序列(values)和 索引(index)
生成:obj=pd.Series([4,7,-5,6])
索引:obj.index
操作
索引和切片obj2['a'] obj2[1] obj2[2:4] obj2['b':'d'](左闭右闭)
修改obj2[2]=6 obj2['d']=8
过滤obj2[obj2>0]大于0的数显示True,其余是False
删除obj2.drop('c') 删除多行obj.drop(['c','d'])
与字典的关系
字典可直接生成序列,产生好的Series的索引将 是字典的键
检测缺失值pd.isnull(obj4)
(2)DataFrame(Series是DataFrame的一列)
DataFrame是数据表,包含已排序的列集合,每一列可以是不同的值类型
生成:data = {'city': ['Xian', 'Xian', 'Xian', 'beijing', 'beijing', 'beijing'],
'year': [2014, 2015, 2016, 2014, 2015, 2016],
'pop': [840, 860, 880, 2152, 2171, 2173]}
frame = pd.DataFrame(data)
2、从外部文件读入数据和数据到文件
pd.read_csv('1.csv')
pd.to_csv('2.csv')
选出前几行:frame.head()默认前5行
索引和切片
行索引frame[:2]前2行
列索引frame2['city']
布尔索引
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['Ohio', 'Colorado', 'Utah', 'New York'],
columns=['one', 'two', 'three', 'four'])
data[data<5]=0
轴标签loc data.loc['Colorado', ['two', 'three']]
整数标签data.iloc[2, [3, 0, 1]] data.iloc[2]
查看列名frame2.columns行名frame2.index值frame.values