拿到一个数据集,我们应该怎么做?
在这篇文章中,我们将深入探讨机器学习核心步骤中的第一步:探索性分析。
在正式开始前,千万不要把这一步与数据可视化或数据结果统计混淆——数据可视化或数据结果统计意味着结果。
恰当的探索性分析其实就是回答问题,就是从数据集中尽可能多地得到数据启发。
在这一篇中,我们会向大家说明在探索性分析过程中需要了解的内容。
为什么要先分析数据集?
探索性分析是为了更好地了解数据集。这样做可以使项目的其他环节运行更流畅:
1.获得有关数据清理的宝贵灵感(数据清理有可能会破坏模型)
2.获得特征工程的启发(可以使模型性能更好)
3.获得对数据集的感性认识(有助于最终的结果交流和影响传递)
机器学习所需要的探索性分析应该是快速、高效、果断的……我们不要卡在上面,花费太多时间,但是,也不能跳过这一步。
在这个过程中,我们会面对n多张图表,但是,只需要少数几张就可以充分了解所有数据并加以利用。
从基础开始
首先,我们需要回答关于数据集的一系列基本问题:
•有多少个观察组?
•有哪些特征?
•特征对应的数据类型是什么?是数字吗?可分类吗?
•是否有目标变量?

观察示例
接下来,要展示数据集中的示例观察值。这一步会使我们对每个特征的值都有一个大体的认识,这也是检查所做的工作是否有意义的好方法。
这是房地产数据集的示例:

探索性分析是机器学习的重要步骤,旨在深入了解数据集,包括数据清理灵感、特征工程启示和整体认识。本文讨论了分析数据集的原因,基础问题,数值和分类特征的分布,细分以及相关性研究。通过这些分析,可以发现异常值,稀疏类别,并为后续的数据清理和特征工程提供指导。先荐作为一款AI推荐系统,已助力多家媒体提升业务指标。
最低0.47元/天 解锁文章
479

被折叠的 条评论
为什么被折叠?



