pandas的数据结构
1.Series
类似numpy中的一维数组,表示为索引(从0开始)和值。
创建:
import pandas as pd,numpy as np
s1 = pd.Series(np.arange(10))
s2 = pd.Series([12,2,5])
s3 = pd.Series({'a':10,'b':44})
含有的属性:
s1.values
s1.index
s1.dtype
方法:
s3.drop('b')#丢弃某项
2.DataFrame
创建:
d1 = pd.DataFrame(np.array(np.arange(12)).reshape(3,4))#通过数组创建
d2 = pd.DataFrame({'a':[1,2],'b':[1,4]})#通过字典创建
d3 = pd.DataFrame({'a':{'o':3,'p':4,'q':5},'b':{'o':5,'p':1,'q':6},'c':{'o':8,'p':1,'q':2})#与上面的区别是行索引
d4 = d3[['a','c']]#利用数据框创建新的,注意与d3['a']的区别
属性:
d3.T#转置
丢弃某项:
d3.drop(['o','q'])#丢弃行
d3.drop('a',axis=1)#丢弃列
d3.drop('o',inplace=True)#原数据直接被替换
索引
自定义索引:
s4 = pd.Series(np.arange(3))
s4.index = ['a','b','c']
重新索引:
s4.reindex(['a','c','b'])
数据获取方法:
s4[2]
s4['a']
s4[:2]
s4['a':]