4. 相关性分析
离散变量与离散变量:
1. 卡方检验:主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实2.际频数的吻合程度或拟合优度问题。
2. 信息增益和信息增益率: 信息增益=熵-条件熵 信息增益率=(熵-条件熵)/条件熵
离散变量与连续变量:
1.连续变量离散化
2. 箱型图
连续变量与连续变量:
pearson检验: scipy.stats.pearsonr(x,y) return (CR,p_value)
5.