数据类型和缺失值

dtype:是指DataFrame或Series中列的数据类类型;
dtype:用来获取特定列的类型;
astype():进行数据转换,int变float
pd.isnull():查看缺失值
pd.notnull()
fillna():替换缺失值
replace():替换非空值
1.Dtypes
数据类型主要是说明pandas如何在内部存储数据的一些信息。
特殊性:完全由字符串组成的列没有得到自己的类型,主要是因为他们是给出数据类型。
例如:float64是说使用64位浮点数;int64是64位的整数。

reviews.price.dtype

dtypes属性返回DataFrame中每一列的dtype

reviews.dtypes

数据表和序列的索引也有自己的数据类型

reviews.index.dtype

Pandas 还支持更多奇特(exotic)的数据类型,例如分类数据(categorical)和时间序列(timeseries)数据。因为这些数据类型很少使用,我们将在本教程的后面部分省略它们。
2.缺失数据(missing data)
条目缺失值(entries)被赋予值NaN,表示“Not a Number”。出于技术原因,这些NAN值始终是FLOAT64 DTYPE。
Pandas 提供针对缺失数据查看的方法。要选择 NaN 条目,您可以使用 pd.isnull()(或其配套的 pd.notnull())。

reviews[pd.isnull(reviews.country)]

替换缺失值为“Unknown”

reviews.region_2.fillna("Unknown")

backfill strategy:我们可以用数据库中给定记录之后出现的第一个非空值填充每个缺失值。这称为回填策略。

reviews.taster_twitter_handle.replace("@kerinokeefe","@kerino")

replace()方法值得在此处提及,因为替换缺失的数据是在数据集中给出某种Sentinel值的缺失数据:类似于“未知”(Unknow),“未公开”(Undisclosed),“无效”(Invalid)等的内容。(也就是说不是NaN,这种float类型)
1.数据集中“points”列的数据类型是什么?
在这里插入图片描述
2.从 points 列中的条目(entries)创建一个Series,但将条目(entries)转换为字符串。提示:字符串是原生 Python 中的 str
在这里插入图片描述
3.有时价格列为空。数据集中有多少评论缺少价格?

在这里插入图片描述
4.最常见的葡萄酒产区有哪些?创建一个系列,计算每个值在 region_1 字段中出现的次数。该字段经常缺少数据,因此将缺失值替换为未知。按降序排列。您的输出应如下所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值