pandas包含三种对象,一维数组Series、二维数组DataFrame、三维panel,相关使用环境:jupyter、python3.5,本次相关了解,难度极低
怎么说呢,怎么一个概述就这么多东西,告辞告辞,来日再续
创建对象
创建一个series
In [2]:
import pandas as pd
import numpy as np
In [3]:
s = pd.Series([1,3,5,np.nan,6,8])
In [4]:
s
s
Out[4]:
创建dataframe
In [5]:
df
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df
Out[5]:
初始函数(numpy的二维数组、时间索引、标签)
通过一个字典创建dataframe
df2
df2 = pd.DataFrame({ 'A' : 1.,
....: 'B' : pd.Timestamp('20130102'),
....: 'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
....: 'D' : np.array([3] * 4,dtype='int32'),
....: 'E' : pd.Categorical(["test","train","test","train"]),
....: 'F' : 'foo' })
df2
Out[6]:
:array必须有相同长度,固定值不必
浏览数据
head():数据的头部
In [17]:
2
df.head(2)
Out[17]:
tail():浏览数据的尾部
In [18]:
df.tail()
Out[18]:
index:查看数据索引
In [20]:
df.index
Out[20]:
values:查看值
In [21]:
values
df.values
Out[21]:
:使用tab查看dataframe的属性!!!!
describe:查看数据概况
In[22]:
df.describe()
Out[22]:
数据查找(selection)
缺失值处理
在统计中对于缺失值的处理主要有两种,一是除去含有缺失值的例,二是使用默认值取代