相关分析,指对两个或多个指标进行分析,评估它们两两之间联系或相互影响的程度,通过了解这些变量是如何相互影响的,进而推测潜在的因果关系或共同的变化趋势。
相关性分析的主要内容是计算变量之间的相关系数,主要的相关系数有如下三个:
皮尔逊相关系数(Pearson Correlation Coefficient):用于衡量两个连续变量之间的线性关系,值介于-1和1之间。值越接近1或-1,表示变量之间的线性关系越强;值接近0,表示几乎没有线性关系,皮尔逊相关系数只适用于线性关系,对非线性关系不适用。
斯皮尔曼秩相关系数(Spearman's Rank Correlation Coefficient):用于衡量两个变量之间的单调关系,即使这种关系不是线性的。常用于处理不满足正态分布或包含异常值的数据。
肯德尔等级相关系数(Kendall's Tau):用于衡量两个变量之间的相关性,适合处理小样本数据或数据中存在相同值的情况。
要判断变量间的相关程度,主要看相关系数的大小,相关系数一般在-1与1之间,一般而言,如果0≤∣r∣<0.3,就认为两个变量之间不相关;如果0.3≤∣r∣<0.5,就认为两个变量之间存在弱相关;如果0.5≤∣r∣<0.8,就认为两个变量之间存在中度相关;如果0.8≤∣r∣<1就认为两个变量之间存在强相关关系。
相关分析的主要应用场景:
1、市场营销:
通过相关分析,可以评估广告投放与销售额之间的关系,了解广告效果的实际影响。
分析客户满意度与客户忠诚度之间的相关性,帮助企业优化客户服务策略
2、电商:
产品销售分析,通过相关分析,找到影响销量的因素
通过相关分析店铺运营上架和品类运营
通过相关分析找到影响短视频内容质量的因素
挖掘哪些关键事件对留存可能有正向影响
找出对购买转化率贡献最高的渠道
分析哪个客群的留存对整体留存贡献更大
分析哪些因素对 DAU 的影响更大
分析影响用户购买行为的关键因素
相关分析在业务中有广泛的应用,但是相关分析时数据易受异常值的影响,使用时注意它的局限性。