你好,我是你们的老朋友,zhenguo!
在机器学习EDA阶段,变量分析及可视化是常做的事情,这篇文章总结变量分析中,最常使用的单变量,双变量分析以及可视化。
单变量分析
单变量分析是指分析单个变量对目标变量的影响。
例如,在预测房屋价格的模型中,单变量分析可以探究房屋面积对价格的影响。
单变量分析中,常用到boxplot图,用来显示一个变量的分布情况,并且常用于离散变量。
import matplotlib.pyplot as plt
# 准备数据
data = [0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5]
# 绘制盒须图
plt.boxplot(data)
plt.show()

双变量分析
双变量分析则是分析两个变量之间的关系。或者,两个变量联合对目标值的影响。
例如,在同样的房屋价格预测模型中,双变量分析可以探究房屋面积和房龄对价格的影响。
常用的分析技巧包括:
散点图: 用来显示两个变量之间的关系,常用于连续变量
回归分析: 用来确定两个变量之间的关系强度以及预测目标变量
分类分析: 用来确定哪些变量最能预测目标变量属于哪一类