1、自动化 EDA 的需求
探索性数据分析是分析数据集以总结特征的重要统计意义并通过适当的视觉效果可视化每个特征的传播的过程。但是,当数据集中有许多特征时,可视化每个特征是一项繁琐的任务,因为检查每个特征的相关性将是一个漫长的过程。因此,这就是 EDA 自动化过程在减少花在数据分析上的总时间以及花在优化特征选择和异常值分析上的时间方面发挥重要作用的地方。
这就是需要自动化探索性数据分析过程的地方,各种 Python 库和 API(如 LUX、SweetViz、AutoViz 等)支持探索性数据分析的自动化。在本文中,让我们探讨如何使用 LUX Python API 来自动化探索性数据分析过程。
2、Lux库
Lux 是一个 Python 库,它通过自动化可视化和数据分析过程来促进快速轻松的数据探索。通过简单地在 Jupyter 笔记本中打印出数据框,Lux 推荐了一组可视化,突出显示数据集中有趣的趋势和模式。可视化通过交互式小部件显示,使用户能够快速浏览大量的可视化集合并理解他们的数据。
LUX 模块下支持的一些标准小部件如下。