数据理解与分析:从分类到回归问题
在数据科学和机器学习领域,理解数据是解决问题的关键。本文将介绍如何通过计算相关性、可视化等方法来理解数据,以及如何将适用于分类问题的工具修改后应用于回归问题。
1. 相关性计算与可视化
在处理数据时,我们常常需要了解不同属性之间的相关性。计算相关性系数是一种常见的方法,以下是计算属性 2 和 3、属性 2 和 21 相关性的代码:
var2 += (dataRow2[i] - mean2) * (dataRow2[i] - mean2)/numElt
var3 += (dataRow3[i] - mean3) * (dataRow3[i] - mean3)/numElt
var21 += (dataRow21[i] - mean21) * (dataRow21[i] - mean21)/numElt
corr23 = 0.0; corr221 = 0.0
for i in range(numElt):
corr23 += (dataRow2[i] - mean2) * \
(dataRow3[i] - mean3) / (sqrt(var2*var3) * numElt)
corr221 += (dataRow2[i] - mean2) * \
(dataRow21[i] - mean21) / (sqrt(var2*var21) * numElt)
print('Correlation between attribute 2 and 3')
print(corr23, '\n')
print('Corr
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



