怎么做数据的EDA分析?

1.什么是EDA分析?

探索性数据分析
(Exploratory Data Analysis,简称EDA)
我的理解是,所谓“探索”,就是自己不受规则约束、用各种方法去找数据的特点、规律。

2.怎么去实现EDA分析?

首先要敢于假设,不设限。拿到一堆数据后,多少会有点猜想,那么就可以去大胆尝试和验证;

怎么验证猜想乃至挖掘出更多关系与规律呢?要多做图,通过将数据可视化来直观浅显地展示其中的数据关联。

3.具体要做哪些图?

单变量分析
基本统计量(中位数、四分位数、偏度、峰度等等) 
偏度、峰度:数据的大致分布情况,功能上与直方图类似,其虽然可量化,但不如直方图直观 
直方图 
- 对称? 
- 分散? 
- 异常值? 
- 有间隙? 
箱线图 
- 异常值? 
- 对称? 
- 比较几批数据的形状 
正态性检验 
- 图示法
- 直方图钟型? 
- 箱线图 
- QQ图 
- 非参数检验方法

两个变量的分析
线性相关? 
秩相关? 
关联性如何? 
注意: 
先绘制散点图 
要求两变量来自正态总体 
出现异常值慎用

报表
在进行了单变量与多变量的分析之后,应该得到一个展示成果性的报表。制作报表时应该思考以下的信息: 
- 数据缺失? 
- 有异常值? 
- 特征有冗余? 

### 探索性数据分析的概念 探索性数据分析(Exploratory Data Analysis, EDA)是一种通过统计图表和技术来初步理解数据的方法。这不仅有助于识别模式、异常值以及假设检验,还能够指导后续更深入的数据分析工作[^1]。 ### 方法与最佳实践 为了有效地执行EDA,掌握如何收集数据、探索数据并准备数据至关重要。这意味着要精通数据可视化和数据整理(包括聚合)。具体来说: - **数据收集**:遵循一系列必要的前期步骤以确保所获取的信息既全面又可靠[^2]。 - **数据清洗**:处理缺失值、重复记录等问题,使原始资料更加整洁有序;同时保证这些操作不会引入新的偏差或错误[^5]。 - **特征工程**:创建新变量或将现有字段转换成更适合建模的形式,从而提高模型性能。 - **可视化表达**:利用图形化手段直观展示分布情况、趋势变化等特性,帮助快速定位潜在问题所在之处。 ### 工具推荐 多种软件包支持高效完成上述任务,在Python生态系统内尤为突出的是Pandas库用于灵活操控表格结构化的信息集,Matplotlib/Seaborn则擅长绘制高质量静态图件辅助解读结果。以下是简单的代码片段示范如何加载CSV文件并对其中某一列进行基本描述统计及直方图呈现: ```python import pandas as pd import matplotlib.pyplot as plt # 加载csv文件到DataFrame对象df中 df = pd.read_csv('data.csv') # 对'column_name'这一列做简单描述性统计 print(df['column_name'].describe()) # 绘制'column_name'的频率分布直方图 plt.hist(df['column_name'], bins=30) plt.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值