第三章 相关分析—— 数据挖掘(主编:吕欣 王梦宁)》读书笔记

第三章 相关分析

在数据分析中,变量之间的关系往往不是孤立的——比如“学习时间”和“考试成绩”、“广告投入”和“销售额”、“温度”和“冰淇淋销量”,这些变量之间似乎存在某种关联,但又不是绝对的“你变我必变”。相关分析就是用来量化这种关联程度的工具,它能告诉我们:变量之间是“正相关”(同增同减)还是“负相关”(一增一减)?关联是强还是弱?是线性的还是非线性的?

本章从函数关系与相关关系的区别,到线性、非线性、偏相关、距离相关的具体方法,带你一步步看懂变量之间的“爱恨情仇”。

一、函数关系与相关关系:变量之间的“确定性”与“不确定性”

要理解相关分析,首先得区分两种最基本的变量关系:函数关系和相关关系。

1. 函数关系:“你定我也定”的确定性关系

函数关系是严格确定的依赖关系——当一个或多个变量取特定值时,另一个变量有唯一确定的值与之对应,没有任何模糊空间。

  • 例子:
    • 匀速直线运动中,路程s=v×ts = v \times ts=v×t(速度vvv固定时,给定时间ttt,路程sss唯一确定);
    • 圆的面积S=πr2S = \pi r^2S=πr2(半径rrr确定,面积SSS唯一确定)。
  • 特点:关系可通过数学公式精确描述,不存在误差或不确定性。

2. 相关关系:“你变我可能变”的不确定性关系

在这里插入图片描述

相关关系是变量之间存在关联但不严格确定的关系——一个变量变化时,另一个变量往往会随之变化,但变化的幅度和方向不是绝对的。

  • 例子:

    • 身高和体重:通常身高高的人体重更重,但同样身高的人,体重可能相差很大;
    • 工龄和工资:一般工龄越长工资越高,但相同工龄的人,工资可能因岗位、能力不同而差异显著。
  • 分类:

    • 按方向:正相关(同增同减,如学习时间↑→成绩↑)、负相关(一增一减,如价格↑→销量↓);
    • 按形式:线性相关(散点近似直线,如广告投入和销量的关系)、非线性相关(散点呈曲线,如施肥量和产量——超过临界点后,施肥越多产量反而下降);
    • 按强度:完全相关(接近函数关系)、不完全相关(大部分数据符合趋势,但有例外)、不相关(变量变化无规律);
    • 按变量数量:单相关(两个变量之间的关系,如身高和体重)、复相关(多个变量之间的关系,如销量与价格、广告、季节的关系)。

二、线性相关分析:变量之间的“直线情缘”

线性相关分析专注于量化变量之间的“线性关联”——即散点图近似呈直线趋势的关系。它的核心是通过统计量衡量这种趋势的强弱和方向。

1. 前提:数据是否符合正态分布?

很多线性相关方法(如Pearson相关系数)的计算基于“数据服从正态分布”的假设,因此分析前需要先做正态性检验

(1)图示法:用图形“直观判断”
  • 直方图:若数据服从正态分布,直方图会呈现“钟形”(中间高、两端低,左右对称);
  • P-P图/Q-Q图:将数据的实际分位数与理论正态分位数对比,若点近似落在对角直线上,说明接近正态分布。
(2)假设检验法:用统计量“严格验证”
  • Shapiro-Wilk检验:原假设为“数据服从正态分布”,若计算得到的ppp值>0.05(显著性水平),则无法拒绝原假设,可认为数据符合正态分布;
  • Kolmogorov-Smirnov检验:适用于大样本(n>50),逻辑与Shapiro-Wilk类似,ppp值>0.05时倾向于正态分布。

2. Pearson相关系数:线性相关的“黄金指标”

Pearson相关系数(Pearson Correlation Coefficient)是衡量两个连续变量线性相关强度和方向的最常用指标,计算公式为:

r=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}}r=i=1n(xixˉ)2i=1n(yiyˉ)2i=1n(xixˉ)(yiyˉ)

  • 取值范围:[−1,1][-1, 1][1,1]

    • r=1r = 1r=1:完全正相关(变量同增同减,严格线性);
    • r=−1r = -1r=1:完全负相关(变量一增一减,严格线性);
    • r=0r = 0r=0:无线性相关(但可能存在非线性相关);
    • 绝对值越接近1,线性相关越强(如r=0.8r=0.8r=0.8r=0.3r=0.3r=0.3的线性关系更强)。
  • 例子:
    分析100名学生的“每天学习时间(小时)”和“期末考试成绩(分)”,计算得到r=0.7r=0.7r=0.7,说明两者存在较强的正线性相关——学习时间增加,成绩倾向于提高。

  • 局限性:

    • 只反映线性关系,无法识别非线性关联(如r=0r=0r=0可能是“完全非线性相关”,而非“无关”);
    • 对异常值敏感(一个极端值可能大幅改变rrr的大小);
    • 适用于连续变量,对分类变量或等级数据(如“优/良/中”)不适用。

3. Spearman秩相关系数:非正态数据的“救星”

当数据不满足正态分布,或变量是等级数据(如排名、评分等级)时,Spearman秩相关系数更合适。它不关注原始数据值,而是基于“秩次”(即数据的排序位置)计算相关程度。

计算公式:

rs=1−6∑i=1ndi2n(n2−1)r_s = 1 - \frac{6\sum_{i=1}^n d_i^2}{n(n^2 - 1)}rs=1n(n21)6i=1ndi2
其中did_idi是第iii对数据的秩次差(如xix_ixi的排名与yiy_iyi的排名之差)。

  • 取值范围:[−1,1][-1, 1][1,1],含义与Pearson系数一致(接近1表示强正相关)。

  • 例子:
    分析5名学生的“月考名次”(1-5名)和“平时表现等级”(A=1、B=2、C=3),通过秩次差计算得到rs=0.8r_s=0.8rs=0.8,说明“名次越靠前,平时表现越好”的正相关较强。

  • 优势:
    不依赖数据分布,对异常值的耐受力更强,适用于等级数据或非正态连续数据。

4. Kendall等级相关系数:评委打分一致性的“裁判”

Kendall等级相关系数也是一种非参数方法,它通过计算“同序对”和“异序对”的比例衡量相关程度,更适合判断两个评定者对多个对象的评价一致性

  • 核心逻辑:
    对于nnn个数据对,若两个变量的排序趋势一致(如xxx排名↑时yyy排名也↑),则为“同序对”;趋势相反则为“异序对”。Kendall系数越大,同序对比例越高,评价一致性越强。

  • 例子:
    两位评委对10名选手的打分排名,计算得到Kendall系数=0.75,说明两位评委的评价趋势高度一致。

  • 适用场景:
    适合小样本(n<30)的等级数据,如评委打分、排名对比等场景。

三、非线性相关分析:变量之间的“曲线暧昧”

现实中,很多变量关系不是直线,而是曲线——比如“年龄”和“收入”(中年后收入增速放缓)、“施肥量”和“产量”(超过临界点后产量下降)。这时线性相关系数可能接近0,但变量之间其实存在强关联,需要用非线性相关方法。

1. 互信息:捕捉所有关系的“万能探测器”

互信息(Mutual Information)是衡量两个变量相互依赖程度的指标,它不局限于线性关系,能捕捉任何形式的关联(包括线性、非线性、离散-连续混合关系)。

在这里插入图片描述

定义公式:

I(X;Y)=∑x∈X∑y∈Yp(x,y)log⁡p(x,y)p(x)p(y)I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}I(X;Y)=xXyYp(x,y)logp(x)p(y)p(x,y)
其中p(x,y)p(x,y)p(x,y)是变量XXXYYY的联合概率分布,p(x)p(x)p(x)p(y)p(y)p(y)是边缘概率分布。

  • 含义:互信息值越大,说明通过XXX能越多地推测YYY的信息(或反之),关联越强;I(X;Y)=0I(X;Y)=0I(X;Y)=0表示完全独立。

  • 例子:
    分析“温度”和“冰淇淋销量”,线性相关系数可能因非线性趋势(高温时销量增速变快)而偏低,但互信息值会很高,准确反映两者的强关联。

  • 优势:
    适用于任何类型变量(连续、离散、等级),对非线性关系敏感;

  • 局限:计算复杂,结果是相对值(无[-1,1]的固定范围),需要标准化后才能比较。

2. 最大信息系数(MIC):互信息的“标准化版本”

最大信息系数(Maximal Information Coefficient)是互信息的改进版,它通过“网格化数据→计算不同网格下的互信息→取最大值并标准化”,让结果落在[0,1][0,1][0,1]范围内,更便于解释。

  • 特点:

    • MIC=1表示变量存在严格函数关系(线性或非线性);
    • MIC接近0表示几乎无关联;
    • 对非线性关系的识别能力优于Pearson系数,同时保留了互信息的灵活性。
  • 例子:
    对于“y=x2y = x^2y=x2”这种完全非线性关系,Pearson系数=0(无线性相关),但MIC=1(存在严格函数关系),准确捕捉关联。

四、偏相关分析:排除“第三者”干扰的“纯粹关系”

现实中,变量之间的关系往往受“第三者”影响——比如“房价”和“房屋面积”的关系,可能被“地段”“房龄”等变量干扰(同面积的房子,市中心比郊区贵)。偏相关分析就是在控制这些“第三者”的前提下,计算两个变量的“净相关”程度。

核心逻辑:控制“混杂变量”,保留“纯粹关联”

偏相关分析通过数学方法(基于协方差矩阵)消除其他变量的影响,只关注目标变量之间的直接关系。

  • 例子:
    研究“教育投入”和“GDP增长”的关系时,“科技水平”可能同时影响两者(教育投入↑→科技水平↑→GDP↑)。通过偏相关分析控制“科技水平”后,若仍存在强相关,说明教育投入对GDP有直接促进作用。

  • 计算步骤:

    1. 计算所有变量的协方差矩阵(反映变量之间的整体关联);
    2. 通过矩阵运算消除控制变量的影响,得到目标变量的偏相关系数;
    3. 偏相关系数的取值和解释与Pearson系数一致([-1,1],绝对值越大关联越强)。

五、距离相关分析:用“距离”衡量变量的“相似度”

距离相关分析不直接计算变量的关联方向,而是通过样本或变量之间的“距离” 衡量它们的相似性——距离越小,说明变量越相似(或关联越强)。

1. 常用距离度量方法:各有擅长的“尺子”

(1)欧氏距离:最直观的“直线距离”

d(x,y)=∑i=1n(xi−yi)2d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}d(x,y)=i=1n(xiyi)2

  • 含义:n维空间中两个点的直线距离,适用于连续变量。
  • 例子:二维平面上点(1,2)和(4,6)的欧氏距离=(4−1)2+(6−2)2=5\sqrt{(4-1)^2 + (6-2)^2} = 5(41)2+(62)2=5
(2)曼哈顿距离:城市街区的“实际路线距离”

d(x,y)=∑i=1n∣xi−yi∣d(x, y) = \sum_{i=1}^n |x_i - y_i|d(x,y)=i=1nxiyi

  • 含义:像在网格状城市中,从一个点到另一个点的“横向+纵向”总距离,不允许“斜向穿行”。
  • 例子:点(1,2)和(4,6)的曼哈顿距离=∣4−1∣+∣6−2∣=3+4=7|4-1| + |6-2| = 3 + 4 = 7∣41∣+∣62∣=3+4=7
(3)切比雪夫距离:各维度的“最大差异”

d(x,y)=max⁡i=1n∣xi−yi∣d(x, y) = \max_{i=1}^n |x_i - y_i|d(x,y)=i=1maxnxiyi

  • 含义:两个点在所有维度上的最大差值,适用于“关注最极端差异”的场景。
  • 例子:点(1,2)和(4,6)的切比雪夫距离=max⁡(∣4−1∣,∣6−2∣)=4\max(|4-1|, |6-2|) = 4max(∣41∣,∣62∣)=4
(4)余弦相似度:向量夹角的“亲密程度”

cos⁡θ=x⃗⋅y⃗∥x⃗∥∥y⃗∥\cos\theta = \frac{\vec{x} \cdot \vec{y}}{\|\vec{x}\| \|\vec{y}\|}cosθ=x∥∥yxy

  • 含义:通过两个向量夹角的余弦值衡量相似度(夹角越小,余弦值越接近1,越相似)。
  • 适用场景:文本分析(如两篇文章的关键词向量相似度)、图像识别(特征向量匹配)。
(5)马氏距离:消除“量纲和相关性”的“智能距离”

d(x,y)=(x−y)TS−1(x−y)d(x, y) = \sqrt{(x - y)^T S^{-1} (x - y)}d(x,y)=(xy)TS1(xy)
其中SSS是协方差矩阵,S−1S^{-1}S1是其逆矩阵。

  • 优势:
    自动消除不同维度的量纲影响(如“身高(cm)”和“体重(kg)”),同时考虑变量之间的相关性(如“身高”和“体重”的联动关系),比欧氏距离更符合实际数据分布。

总结:如何选择合适的相关分析方法?

相关分析方法没有“万能选项”,选择需结合数据类型和研究目标:

  • 若变量是正态连续数据,且疑似线性关系:用Pearson相关系数;
  • 若变量是非正态连续数据或等级数据:用Spearman或Kendall系数;
  • 若怀疑存在非线性关系:用互信息或最大信息系数(MIC);
  • 若存在混杂变量(需控制其他因素):用偏相关分析;
  • 若需衡量样本/变量的相似度(无方向):用距离相关(如余弦相似度、马氏距离)。

相关分析的核心价值,是帮我们从“直观感受”走向“量化证据”——它不能证明“因果关系”(如“学习时间↑导致成绩↑”可能是其他因素的作用),但能为进一步研究(如实验验证)提供重要线索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值