pandas库的使用【知识整理】

综述

学生党整理一些关于数据分析的知识:主要整理了pandas库内一些函数的用法及一些数据预处理的方式(以two.csv和titanic_train(test).csv数据为例子)。包括了读取csv文件中的数据、显示文件中数据及数据属性的一些方式、向数据集中添加新的变量数据、排序、计算均值及分类计算均值的方法、剔除变量、单个数据读取、重新设置索引顺序、apply的函数操作、Series的基本操作、DataFrame类型索引重新设置等操作。

代码模块

读取csv类型文件的内容

import pandas
two = pandas.read_csv('two.csv')    #非常常用
print(two)
print(type(two))
print(two.dtypes)
#print(help(pandas.read_csv))   帮助

显示数据及数据类型

读取样本前后几行数据,默认为读取5行数据

print(two.head(3))  #参数为样本数量的前3行
print(two.tail(3))  #参数为样本数量的后3行

读取对应行或对应几行数据

print(two.loc[0])   #读取第一条数据
print(two.loc[3:4]) #切片取数据

显示数据大小及变量名称

print(two.columns)  #显示two的变量名称
print(two.shape)    #矩阵的大小

读取单个或多个变量所有数据

print(two['x1'])    #取变量为x1的所有数据
columns = ['x1','x2']
print(two[columns]) #同时读取两个变量的所有数据

以two.csv文件为例,输出全部变量的数据

#输出所有x变量的数据(除了y)
columns = two.columns.tolist()
get_columns = []
for i in columns:
    if 'x' in i:
        get_columns.append(i)
print(two[get_columns])

添加变量数据

添加新变量进行数据集,新变量数据的样本量要与数据集中的样本量相同(添加标准化后数据)

#将x1和x2的和作为z变量,添加到数据two中
new_columns = two['x1']+two['x2']
two['z'] = new_columns
print(two.columns)

#z数据标准化后得到z_gis
new_columns = (two['z'] - two
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值