探索性数据分析全解析
在数据科学领域,构建预测模型和识别数据中的重要信号依赖于复杂的算法,而每种算法都有其优缺点。我们通常会选择一系列算法,在数据上运行它们,尽可能优化其参数,最后决定哪种算法最能帮助我们构建数据产品或深入洞察问题。不过,有一个原则必须牢记:“GIGO”,即“垃圾进,垃圾出”。无论使用多么强大的机器学习算法,如果数据本身存在问题,都无法获得良好的结果。
探索性数据分析(EDA)理念
探索性数据分析(EDA)是一种通过简单的汇总统计和图形可视化来探索数据集的通用方法,旨在更深入地理解数据。它由数学家和统计学家约翰·图基(John Tukey)在贝尔实验室开发。与当时占主导地位的验证性方法不同,EDA 强调基于数据本身提出更多问题和采取行动。验证性方法依赖于理论或程序,数据仅用于测试和应用。图基认为,人类要比计算机做得更好,就需要冒险尝试可能比计算机更差的方法。这意味着数据科学家的角色和工具不仅限于自动学习算法,还包括手动和创造性的探索任务。
与初始数据分析(IDA)相比,EDA 更进了一步。IDA 主要完成观察、标记缺失值、转换文本或分类变量、创建新特征等基础工作,以获得一个以行为观察值、列为变量的数值数据集。而 EDA 则具有不同的态度,它超越了基本假设,包括描述数据、深入探索数据分布、理解变量之间的关系、注意异常情况、将数据分组、发现组内的意外模式以及记录组间差异等。
数值数据的描述性统计定义
在处理数据时,我们首先可以采取的行动是生成一些综合指标,以帮助了解数据的情况。这里以 Fisher 的鸢尾花数据集为例,该数据集可以从 Scikit - learn 包中加载:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



