Pyhthon数据处理初步(一)

本文介绍了Python数据处理的基础,包括使用pandas库读取CSV和Excel文件,查看数据的行数和列数,以及数据类型。通过dataframe的head()和tail()方法观察数据,利用describe()和select_dtypes()方法对数值型列进行统计分析,如缺失值比例、四分位数等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、import packages
import pandas as pd #导入pandas
pd.set_option(‘precision’,5) #设置精度
pd.set_option(‘display_float.format’,lambda x:’%.5f’%x) #显示小数点后五位
pd.options.display.max_rows = 200 #最多显示200行
这里用到了pandas.set_option,具体查看官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.set_option.html

二、read data
data = pd.read_csv(‘filepath’,skiprows=0,header=1) #读取csv文件
data = pd.read_excel(‘filepath’,skiprows=0,header=1) #读取excel文件
这里用到了pandas.read_excel,具体请查看官方文档:
https://pandas.pydata.org/pandas-docs/version/0.20/generated/pandas.read_excel.html
注意:此时的data是一个DataFrame, DataFrame是什么?
DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表。
shiprows参数表示略去的行,header表示标题在第几行,从0开始

三、realize data
data.shape #查看数据行数和列数
data.head(3) #head()默认查看前五行数据,tail()默认查看后五行数据
set(data.dtypes) #利用dtypes方法查看DataFrame中各列的数据类型

#用select_dtypes方法将数据按数据类型进行分类,然后利用describe方法返回的统计值对数据有个初步的了解,另外添加了缺失值比重
data.select_dtypes(i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值