数据理解:以“岩石与地雷”数据集为例
1. 数据检查基础
在处理数据时,首先要检查数据的大小和形状。可以将数据读入一个嵌套列表中,外层列表的维度代表行数,内层列表的维度代表列数。接下来,需要确定每行中缺失值的数量。处理缺失值最简单的方法是丢弃不完整的实例(即至少有一个缺失值的示例)。不过,在很多情况下,这样做可能会使结果产生偏差,但少量不完整的示例通常不会造成实质性影响。通过统计包含缺失数据的行数(以及缺失条目的总数),可以了解如果采用简单方法需要丢弃多少数据集。
如果数据行数众多(例如从网络收集的数据),相比可用的行数,丢失的行数可能较少。但如果处理的是生物问题,数据获取成本高且属性众多,可能就无法承受丢弃数据的损失。这种情况下,需要想办法填补缺失值,或者使用能够处理缺失值的算法。填补缺失值的操作称为插补,最简单的插补方法是用每行条目的平均值填充缺失条目,更复杂的方法则可以采用一些预测方法。
1.1 插补缺失值的方法
- 简单插补 :使用每行条目的平均值填充缺失条目。
- 复杂插补 :采用预测方法,将包含缺失值的属性列视为标签进行处理,但在进行此操作前要先移除原始问题标签。
2. 分类问题:使用声纳检测未爆炸地雷
以“岩石与地雷”数据集为例,该数据集来自UC Irvine数据仓库,是一些关于能否使用声纳检测军事行动后港口遗留未爆炸地雷的实验数据。声纳信号是一种啁啾信号,即信号在声音脉冲持续时间内频率会上升或下降。数据集中的测量值代表声纳接收器在返回信号不同点收集的功率测量值。大约一半的示例中,
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



