pd.Series([1, 3, 6, np.nan, 44, 1]) :建立一个列表
pd.date_range(‘20160101’, periods = 6): 生成日期,共六个
pd.DataFrame(np.random.randn(6, 4), index=[1, 2, 3, 4, 5, 6], columns=[‘a’, ‘b’, ‘c’, ‘d’]) :生成一个六行四列的DataFrame数据,行索引是index,列索引是columns。
pd.DataFrame({‘A’: 1., ‘B’ : ‘foo’}) :这种方式同样可以生成一个DataFrame数据,字典的键代表着列的索引,行的索引默认是0,1,2,3…
A.T :实现转置,包括行和列的索引都会转置
A.sort_index(axis=1, ascending=False) : 按照索引排序, axis= 1是对行进行操作,即列的索引,按照倒序排列
A.sort_values(by= ‘E’) :按照值进行排序,by=‘E’表示按照索引名称为E的那一列(或者是行?)排序。
A[‘B’] :可以提取A中索引为B的一列(或一行?),用A.B同样可以实现。
A[0:3] :可以实现提取A的前三行,用A[a:c]同样可以实现,a是第一行的索引,c是第三行的索引,即利用行索引也可以实现提取多行。注意利用索引名称是直接提取所有涉及到的行,不是半闭区间。
A.loc[‘20130102’] : 可以提取指定索引为‘20130102’的行,loc是指通过标签进行索引
A.loc[ :, [‘A’, ‘B’]] :提取指定索引为’A’和’B’的两列
A.loc[‘20130102’ , [‘A’, ‘B’]] : 提取行索引为’20130102’,列索引为’A’, ‘B’,的两个数据
A.iloc[3] : 提取第三行的数据,iloc是指通过位置进行索引
A.iloc[3,1] :提取第四行,第二列的数据
A.iloc[3:5, 1:3] :提取索引位置为3、4行,1、2列的数据
A.iloc[[1, 3, 5], 1:3] :提取索引位置为1、3、5行,1、2列的数据
A[A.b<8] :筛选出标签为b这一列中小于8 的数据,返回小于8的数据所在行的所有数据
A[A.b>4]=0 :先选出标签为b这一列中所有大于4的数据,然后对这些数据所在行的所有数据赋值为0
A.a[A.b>4]=0 : 先选出标签为b这一列中所有大于4的数据,然后对这些数据所在行中标签为a的数据赋值0
A.dropna(axis=0, how=‘any’) :丢掉A中数据为NAN的行,axis=0表示对行进行操作,how表示只要有一个NAN数据就删掉整行,how还可以选择参数为’all’,即只有整行都为NAN时才会删掉这一行。
A.fillna(value=0) :把NAN填充为0值
A.isnull() :返回A中的值是否是NAN,返回的是一个True和False的DataFrame
np.any(A.isnull()==True) :判断A中是否有NAN值
pd.read_csv(‘my.csv’) :读取csv格式文件
A.to_pickle(‘my.pickle’) :把数据A存储为pickle格式文件
pd.concat([df1, df2, df3], axis =0, ignore_index =True): 把df1、df2、df3从上向下拼接,axis=1时则是从左向右拼接,ignore_index =True时会忽略原有DataFrame的行索引,重新从0开始进行标记
pd.concat([df1, df2], join=‘inner’) :数据合并时join参数可以选择inner或者是outer,系统默认的是outer,这种模式类似于取并集,对于df1、df2中没有的索引数据全部填充为NAN,还有一种是inner,类似于取两个数据的交集,对于各自没有的索引直接删除,这些都是针对列索引的。
pd.concat([df1, df2], axis=1, join_axes=[df1.index]) :对df1和df2进行左右合并,合并按照df1的索引进行。
df1.append([df2, df3],ignore_index =True) : 对df1添加数据df2、df3,默认是axis=0,即在DataFrame的下面添加,如果改为axis=1,则在df1的右面添加数据。
pd.merge(df1, df2, on = ‘key’) : 合并df1和df2, on代表的用哪一列合并,‘key’是列的标签名字。
pd.merge(df1, df2, on =[‘key1’, ‘key2’]) :通过key1和key2两列进行合并。同时还可以增加how参数,how可以=‘inner’或者’outer’,还可以=‘df1’或者是’df2’,也就是可以等于数据的名字。还可以增加indicator参数,当令这个参数=True时,可以显示出来数据时怎样合并的。还可以设置suffixes参数,相当于添加后缀,这样可以区别df1,df2中原本相同名字的标签,系统可以自动给他们添加上标签,例如suffixes=[‘_boy’, ‘_girl’]。
df1.plot()
plt.show()
以上两行就可以把df1的数据绘出图来。
df2.plot.scatter(x=’ ‘, y =’ ‘, color=’ ‘,label=’ ',ax= ):这个函数可以画出散点图,ax=后面是另一个需要画出来的数据。