Pandas DataFrame基础知识
1.1简介
Pandas是一个用于数据分析的开源Python库。具有两种数据实现:Dataframe、Series格式。
Dataframe表示整个电子表格或矩形数据。
Series表示单列,具体来说是Dataframe的子集,表示其中的一列。
1.2加载数据集
导库
import pandas import pandas as pd
示例
df = pandas.read_csv(r'../file_name',sep='\t') print(df.head())
常用属性与函数: type() #内置函数查看变量的数据类型 例:type(df) df.shape #获取行数与列数 df.colums #获取列名 df.dtypes #获取每一列的类型 df.info() #获取更多数据信息
1.3查看列、行和单元格
1.3.1列子集
#获取单列 colums_1 = df['colums_name'] #获取多列 colums_name = df[['colums_1','colums_2','colums_3']] #使用函数查看获取的列 colums_1.head() colums_1.tail() colums_name.head() colums_name.tail()
1.3.2行子集
#两种方法 loc 与 iloc #loc 基于索引标签获取行子集(行名,时间序列,下面的例子是行名等于行号的情况) #iloc 基于行索引获取行子集(行号) #获取第一行,从0开始计数 df.loc[0] #获取最后一行 返