【机器学习-数据预处理】

上大学的时候接触到机器学习就觉得好厉害的样子,竟然可以预测未来即将发生的事请。在成为一名研究生之后幸运地参加了实验室里的集料数据预测方面的研究。作为与实际生产紧密联系的方向,我们实验室的集料研究方向的所有数据均为自己筛分采集存储,自己掌握数据来源才是最可靠的,在数据有问题的时候可以对原始数据进行追溯,排查问题点。以下是我做集料预测方向关于数据质量问题的一点小心得,以记录自己在数据预测方面走过的弯路。

数据为中心or算法为中心

假设我们已经完成了初步的数据分析,模型的性能达到了比较好的效果。但实际使用过程中的预测精度还不足,不能完全满足业务的需要。那么接下来我们可以分析预测错误的结果,在输入数据中寻找可能是异常的数据,或者选择一种更复杂的模型算法。但总的来说,如果不能给模型中输入良好的输入数据,那即便采用更先进的机器学习算法,也不会产生太好的效果。因此我们要将更多的目光放在数据的质量上。

数据质量提升

缺失值

缺失值是我们在处理数据时常见的一种可能导致数据预测精度不高的数据问题。
有缺失值的数据不仅可能导致模型效果差,还可能直接导致模型训练失败。
缺失值会使系统丢失大量有用信息、可能是系统中所表现出的不确定性更加显著、可能数据分析挖掘过程陷入混乱、导致不可靠输出、还有可能导致模型训练失败。
在这里插入图片描述
可以使用非常简单的一行代码来检查数据中是否有空值

data.isnull
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值