python利用pandas读取.data文件并对nan进行处理

  在数据挖掘的很多领域,数据内容往往以.data形式给出,因此读取data文件到矩阵中并对异常值进行处理就变得很重要了。
  一个data文件的截图:
在这里插入图片描述
该data文件为一个1567 X 590的矩阵,每一行代表一个样本。
操作步骤:

读取数据到矩阵中

  1. 先直接pd.read_csv(),然后通过输出了解到数据一共有多少列。
data = pd.read_csv('manifold/secom.data', sep=' ')
print(data.shape[1])

输出590,于是我们知道了一共590列。但是这种读法默认会把第一行当成列索引。

  1. 完整读取数据
data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
data = np.array(data)

这样数据就变成了一个矩阵。

处理异常值nan

  1. 思路:求得每一列除nan以外数据的平均值,填充到这一列中是nan的地方。
  2. 求取除nan以外数据的平均值,我的思路是先把这一列转成list,然后利用np.nanmean(list)函数,跳过nan求平均值。
temp = np.array(data)[:, i].tolist()  #第i列转成list
mean = np.nanmean(temp)  #跳过nan求mean
  1. 填充
data[np.argwhere(np.isnan(data[:, i].T)), i] = mean
#argwhere用于查找满足nan的位置

完整代码:

def load_file():
   data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
   data = np.array(data)

   for i in range(data.shape[1]):
       temp = np.array(data)[:, i].tolist()
       mean = np.nanmean(temp)
       data[np.argwhere(np.isnan(data[:, i].T)), i] = mean

   return data
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cyril_KI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值