pandas库的使用(基础)
综述
学生党整理一些关于数据分析的知识:主要整理了pandas库内一些函数的用法及一些数据预处理的方式(以two.csv和titanic_train(test).csv数据为例子)。包括了读取csv文件中的数据、显示文件中数据及数据属性的一些方式、向数据集中添加新的变量数据、排序、计算均值及分类计算均值的方法、剔除变量、单个数据读取、重新设置索引顺序、apply的函数操作、Series的基本操作、DataFrame类型索引重新设置等操作。
代码模块
读取csv类型文件的内容
import pandas
two = pandas.read_csv('two.csv') #非常常用
print(two)
print(type(two))
print(two.dtypes)
#print(help(pandas.read_csv)) 帮助
显示数据及数据类型
读取样本前后几行数据,默认为读取5行数据
print(two.head(3)) #参数为样本数量的前3行
print(two.tail(3)) #参数为样本数量的后3行
读取对应行或对应几行数据
print(two.loc[0]) #读取第一条数据
print(two.loc[3:4]) #切片取数据
显示数据大小及变量名称
print(two.columns) #显示two的变量名称
print(two.shape) #矩阵的大小
读取单个或多个变量所有数据
print(two['x1']) #取变量为x1的所有数据
columns = ['x1','x2']
print(two[columns]) #同时读取两个变量的所有数据
以two.csv文件为例,输出全部变量的数据
#输出所有x变量的数据(除了y)
columns = two.columns.tolist()
get_columns = []
for i in columns:
if 'x' in i:
get_columns.append(i)
print(two[get_columns])
添加变量数据
添加新变量进行数据集,新变量数据的样本量要与数据集中的样本量相同(添加标准化后数据)
#将x1和x2的和作为z变量,添加到数据two中
new_columns = two['x1']+two['x2']
two['z'] = new_columns
print(two.columns)
#z数据标准化后得到z_gis
new_columns = (two['z'] - two