pandas库的使用【知识整理】-优快云博客

本文链接：https://blog.youkuaiyun.com/Droke_Zhou/article/details/87306785

pandas库的使用（基础）

综述
代码模块
小结

综述

学生党整理一些关于数据分析的知识：主要整理了pandas库内一些函数的用法及一些数据预处理的方式（以two.csv和titanic_train(test).csv数据为例子）。包括了读取csv文件中的数据、显示文件中数据及数据属性的一些方式、向数据集中添加新的变量数据、排序、计算均值及分类计算均值的方法、剔除变量、单个数据读取、重新设置索引顺序、apply的函数操作、Series的基本操作、DataFrame类型索引重新设置等操作。

代码模块

读取csv类型文件的内容

import pandas
two = pandas.read_csv('two.csv')    #非常常用
print(two)
print(type(two))
print(two.dtypes)
#print(help(pandas.read_csv))   帮助

显示数据及数据类型

读取样本前后几行数据，默认为读取5行数据

print(two.head(3))  #参数为样本数量的前3行
print(two.tail(3))  #参数为样本数量的后3行

读取对应行或对应几行数据

print(two.loc[0])   #读取第一条数据
print(two.loc[3:4]) #切片取数据

显示数据大小及变量名称

print(two.columns)  #显示two的变量名称
print(two.shape)    #矩阵的大小

读取单个或多个变量所有数据

print(two['x1'])    #取变量为x1的所有数据
columns = ['x1','x2']
print(two[columns]) #同时读取两个变量的所有数据

以two.csv文件为例，输出全部变量的数据

#输出所有x变量的数据（除了y）
columns = two.columns.tolist()
get_columns = []
for i in columns:
    if 'x' in i:
        get_columns.append(i)
print(two[get_columns])

添加变量数据

添加新变量进行数据集，新变量数据的样本量要与数据集中的样本量相同（添加标准化后数据）

#将x1和x2的和作为z变量，添加到数据two中
new_columns = two['x1']+two['x2']
two['z'] = new_columns
print(two.columns)

#z数据标准化后得到z_gis
new_columns = (two['z'] - two