在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,相关性不等于因果性。
一、离散与离散变量之间的相关性
1、卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
(1)假设,多个变量之间不相关
(2)根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,变量相关的可能性越大,当P<=0.05,否定原假设,认为变量相关。
2、信息增益 和 信息增益率
在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。
信息熵,就是一个随机变量的不确定性程度。
条件熵,就是在一个条件下,随机变量的不确定性。