入门级——数据预处理(一)数据的基本信息查看

在数据分析前,数据预处理至关重要,它包括处理空缺值、离群点和脏数据等。使用Python的pandas库,可以方便地查看数据的基本信息,如数据类型、是否存在空值、数值统计信息等。通过`head()`函数查看数据前几行,`describe()`提供数值型数据的统计概览,`info()`显示数据格式、行数、列数及非空检查,`dtypes`展示数据类型,`astype()`用于转换数据类型,而`iloc`则用于选取特定行列。新增列可通过直接赋值操作实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

由于现实生活中获取到的数据并不是我们最终想要的形式,可能会出现空缺值,离群点,脏数据等情况,因此在进行数据分析之前需要先进行数据的预处理。

在进行数据预处理之前需要先进行基础的数据查看,此时用到python中的pandas库

基础的信息查看包括,数据的行数列数信息查看、数据的类型(例如,整型、字符型等)的查看、是否有空缺值(null)的查看,数值型数据的描述性信息的查看、数据的前几行信息的查看、以及基础的数据增加一列的操作等,具体代码如下。

#导入pandas库
import pandas as pd

#注意默认的,需要读取的csv的文件的编码方式需要是utf-8形式
content=pd.read_csv('需要读取的文件路径')

#显示读取的csv文件的前几行数据的信息
#注意  想要显示前几行信息,括号就写几行
content.head(10)

#展示读取的数据中数值型数据的基本统计信息
content.describe()
#展示读取的所有数据的基本统计信息
content.describe(include="all")
#展示读取的数据中的某一列的基本统计信息
content['想要描述的那一列的名称'].describe()

#显示读取的数据的数据格式、行数列数、是否非空以及占用内存
content.info()

#查看数据的行数以及列数,第一个数据是行数,第二个数据是列数
content.shape

#提取数据的哪几行哪几列数据,赋给新的变量
new=content.iloc[开始的行号:结束的行号(注意取不到),开始的列号:结束的列号(注意取不到)]

#显示数据的类型
content.dtypes

#将某一列的数据类型进行转化
content['想要转化的列名'].astype('想要转化成的类型')

#给读取成dataframe类型的文件新加一列
content['新加列的列名']=一个与原文件同样长度的列表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值