引入pandas包
import pandas as pd
这里是引入pandas包,并起了个别名pd,方便使用时简单书写
获取数据
做开发的时候数据获取一般就两种,一种时读取文件,一种是查询数据库
从文件读取read_csv
Train_data=pd.read_csv('train.csv',index_col=['id'])
这里Test_data是DataFrame类型,DataFrame是由多个Series组成。查看

对DataFrame的操作有多种多样,可参考官方文档
在运用中比较常见的
1、head()。当数据量过大,查看数据样式时,使用
Train_data.head(1)

2、这里的列太多,显示不全,可以直接使用T转至树形查看
Train_data.head(1).T
3、在一个做报表的项目中用到的知识点
Train_data.drop_duplicates()#整行去重
Train_data.drop_duplicates(['grade'])#按一列去重
Train_data.grade.unique() #查看一列包含哪些值)

Train_data.loc[Train_data.grade=='A'] #查找

Train_data.employmentLength.fillna(value=0,inplace=True) #填充值
Train_data.groupby(['grade'],as_index=False).loanAmnt.agg('sum') #分组统计
这里列出的方法在使用时有多种情况,具体使用还是参考官方文档
Pandas数据处理实战
本文详细介绍Pandas库在数据处理中的应用,包括数据导入、DataFrame操作、数据清洗、分组统计等关键步骤,适合初学者及进阶者学习。
879

被折叠的 条评论
为什么被折叠?



