聊聊你知道和不知道的相关性系数

本文深入探讨了三种相关系数:Pearson、Spearman秩和Kendallτ,详细讲解了它们的计算方法及应用场景,尤其强调了后两种在处理异常值方面的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


总第181篇/张俊红

01

这一篇我们来聊聊大家平常比较常用的相关系数。相关系数是用来度量两个变量之间相关性大小的一个量化指标。比如你要判断啤酒和尿布之间是否有相关性,就可以计算这两个变量的相关系数,通过相关系数来判断两者的相关性大小。相关系数主要有三种:Pearson相关系数、Spearman秩相关系数和Kendall τ相关系数。皮尔逊(Pearson)相关系数大家应该都知道,也应该有用到过。但是秩相关(Spearman)系数和τ相关(Kendall)系数大家或许不知道。我们这一篇就来聊聊这三个系数。

02

第一个讲的是大家熟悉的皮尔逊相关系数,在讲皮尔逊相关系数前,我们先讲一下另外一个概念,协方差。协方差是用来表示两个变量总体的误差,而方差是用来只表示一个变量的误差。协方差的公式如下:

协方差除了表示两个变量总体的误差以外还用来表示两个变量之间的相关性,为什么协方差可以表示两个变量之间的相关性呢?我们需要从协方差的公式入手。通过上面公式中我们可以看出,协方差等于两个变量各自与均值之差的乘积和。

如果变量X与其均值的大小关系与变量Y完全一致,即变量X和Y的值要么同时大于均值要么同时小于均值,那这个时候得到的协方差全为正数,且协方差值达到最大;如果变量X与其均值的大小关系与变量Y刚好相反,即变量X大于其均值的时候变量Y刚好小于其均值,这个时候得到的协方差全为负数,且协方差值达到最小;如果变量X与其均值的大小关系与Y变量Y值部分一致,两者的乘积会有正有负,这个时候得到的协方差值就是介于最大值和最小值之间。X和Y变量的三种情况如下图所示:

协方差比较容易受到量纲的影响,什么是量纲呢,就是单位,比如年龄和身高就不是一个单位,当X和Y变量的量纲之间的差别很大时,就会对协方差结果产生很大影响。下图中,左右两边的X和Y的趋势基本都一致,但是因为量纲不同(看纵坐标值),所以最后算出来的协方差会相差很大。

下表为上图中用到的数据集,感兴趣的同学可以根据公式自己计算下:

那对于上面这种不同量纲的影响我们该怎么办呢?明明趋势一致,但是算出来的协方差值会相差很大。什么原因导致的,我们就用什么方法解决。协方差差别很大的原因主要是因为量纲不同的原因引起的,那我们针对变量进行去量纲处理就行,怎么去量纲呢?就是在协方差的基础上再除以各自变量的标准差,这样就可以消除不同量纲的影响,具体公式如下:

上面这个公式就是相关系数的公式,也就是我们常用的皮尔逊相关系数,这个系数的取值在[-1,1]之间,当值大于0说明两个变量是正相关,且值越接近于1,相关程度越强;当值小于0说明两个变量是负相关,且值越接近于-1,相关程度越强。

协方差不仅会受量纲的影响,还会受到异常值的影响,如果有异常值会拉高或拉低平均值,导致最后算出来的结果会有偏差。

03

讲完了皮尔逊相关系数,我们再来看看秩相关(Spearman)系数。

我们前面讲过皮尔逊系数容易受到异常值的的影响,过高和过低的值都会导致最后的结果有偏差,那有没有一种方法可以避免这种情况呢?答案就是我们这节要讲的秩相关(Spearman)系数,为什么这个可以避免异常值的影响呢?是因为这种方法没有使用变量的绝对值,而是使用了变量中绝对值出现的顺序,顺序就是将所有的变量值从小到大进行排序编号就行,是不是很有效。秩相关(Spearman)系数的公式如下:

04

秩相关(Spearman)系数是用变量里面各值对应的顺序来代替原变量值的,还有另外一种类似的秩相关系数,叫做 Kendall τ秩相关系数。这种相关系数的方法也是利用变量值出现的顺序,但是与Spearman相关系数略有不同。具体求取方法为:先将变量X进行升序排列,然后再对变量Y从第一个开始,依次往后进行两两比较,最后看随着X的增大变量Y增大的值有多少,降低的有多少,通过增大的个数和降低的个数的比较来判定两个变量的相关性。

如下图所示,当我们对变量X进行升序排列以后,我们对变量Y从第一个值开始进行两两比较,一共需要比较的组合有:(1,3)、(1,6)、(1,2)、(1,5)、(1,4)、(3,6)、(3,2)、(3,5)、(3,4)、(6,2)、(6,5)、(6,4)、(2,5)、(2,4)、(5,4),然后我们看这里面大于的组合有多少,小于的组合有多少。

如果随着X的增大变量Y增大的值越多,降低的值越少,说明两个变量之间越正相关;如果随着X的增大变量Y增大的值越少,降低的值越多,说明两个变量之间越负相关;如果随着X的增大变量Y增大的值与降低的值的数量比较接近,说明两个变量之间相关性比较弱。

05

以上就是关于三种不同相关系数的一个简单介绍,平常大家应该对第一种皮尔逊相关系数了解比较多,但是严格意义上后两种要比第一种更加通用,而且适用场景更多一些,尤其是对异常值的影响。

当然了,我们在使用这些方法的过程中肯定是不需要去自己手动计算的,大家只需要明白其中的原理即可。这些相关性系数的求取在Python中都是有现成的函数供大家使用。df.corr()大家应该有人使用过,不知道你有没有看过这个函数里面的参数,这个函数里面有一个method参数,该参数有三个值可选:‘pearson’, spearman’,‘kendall’,分别对应我们上面的三种系数的求取。

本文就讲到这里,大家可以去使用起来啦,我们下周再见。

你还可以看:

聊聊置信度与置信区间

统计学的假设检验

<think>好的,我现在需要帮用户详细聊聊评估指标的设计,特别是在AI产品经理算法团队在预训练模型微调阶段的合作中的角色。用户之前已经问过AI产品经理在微调阶段的作用如何与算法团队配合,现在想更深入地了解评估指标的设计部分。 首先,我需要回顾之前的对话,确保这次回答连贯。之前我提到了评估指标设计是产品经理的核心作用之一,需要与算法团队共同制定符合业务目标的评估体系。现在用户希望更详细地了解这一部分,可能需要分步骤说明,涵盖评估指标的类型、设计流程、注意事项以及案例分析。 用户可能的深层需求是希望了解如何具体操作,比如如何选择适合的指标,如何避免常见陷阱,或者如何在实际项目中应用这些指标。因此,我需要结构清晰,分点阐述,可能包括指标的分类(通用指标、业务指标、人工评估)、设计步骤、设计原则、常见误区、案例分析等部分。 需要注意使用用户之前提到的格式要求:行内数学公式用$...$,独立公式用$$...$$,但用户这次的问题可能需要太多公式,过如果有的话需要正确使用LaTeX。比如在提到准确率、F1值等时,可能需要公式,比如准确率是$\frac{TP+TN}{TP+TN+FP+FN}$,F1是$\frac{2 \times Precision \times Recall}{Precision + Recall}$等。 还需要考虑用户可能是AI产品经理或相关角色,希望了解实际操作中的评估指标设计,所以内容需要实用,结合案例,避免过于理论化。同时,可能需要提醒产品经理在指标设计时与算法团队沟通的重要性,以及如何平衡同指标之间的冲突,比如准确率与响应时间的权衡。 可能的误区包括过度依赖单一指标、忽略业务场景的特殊性、未考虑数据分布等,这些都需要在回答中提及。此外,案例分析部分可以举一个具体的例子,比如在客服系统中如何设计指标,或者在内容审核中的多维度评估。 最后,总结部分需要强调评估指标设计的重要性,以及产品经理在其中起到的桥梁作用,确保技术指标与业务目标一致。同时,可以建议定期复审指标,根据业务变化调整评估体系。</think>以下是关于评估指标设计的详细解析,结合业务场景与技术实现,分步骤说明其核心逻辑及实操方法: --- ### **一、评估指标的核心价值** 评估指标是衡量模型效果的“尺子”,需同时满足两个目标: 1. **技术可量化**:能被算法团队用于优化模型(如损失函数、准确率)。 2. **业务可感知**:能直接反映业务效果(如用户留存率、审核通过率)。 --- ### **二、评估指标的分类与设计方法** #### **1. 通用技术指标(算法团队主导)** 用于基础模型性能评估,需与产品经理对齐业务权重: - **分类任务** - 准确率:$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$(适用于类别均衡场景) - F1值:$\text{F1} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$(平衡精确率与召回率) - AUC-ROC曲线:衡量排序能力,适合点击率预测等场景。 - **生成任务** - BLEU:基于n-gram匹配,常用在机器翻译(需注意对长文本的局限性)。 - ROUGE:关注召回率,适合文本摘要评估。 - 人工评估:通过众包标注判断生成内容的流畅性、相关性。 - **其他任务** - 目标检测:mAP(mean Average Precision) - 推荐系统:NDCG(归一化折损累积增益) **设计要点**: - 明确指标缺陷(如BLEU无法评估语义正确性) - 多指标组合(例:F1值+人工审核通过率) #### **2. 业务定制指标(产品经理主导)** 需将业务目标转化为可量化公式: - **客服对话系统** - 问题解决率 = $\frac{\text{用户未转人工的会话数}}{\text{总会话数}}$ - 平均对话轮次:反映效率(值过低可能说明模型未理解用户意图) - **内容审核模型** - 漏杀率 = $\frac{\text{未识别违规内容数}}{\text{总违规内容数}}$ - 误杀率 = $\frac{\text{误判正常内容数}}{\text{总正常内容数}}$ - **平衡策略**:设置阈值使漏杀率≤1%且误杀率≤5%(需与风控团队协商) - **电商推荐模型** - 购买转化率 = $\frac{\text{点击后购买的用户数}}{\text{总点击用户数}}$ - 长尾商品覆盖率 = $\frac{\text{被推荐的长尾商品SKU数}}{\text{总长尾商品SKU数}}$ **设计要点**: - 定义指标时需明确统计口径(如“长尾商品”的具体定义) - 区分核心指标与观察指标(例:核心指标是漏杀率,观察指标是响应延迟) #### **3. 人工评估体系** 当自动指标无法覆盖复杂场景时使用: - **评分维度设计**(以生成任务为例): ```markdown | 维度 | 评分标准 | 权重 | |------------|-----------------------------------|------| | 相关性 | 回答是否与问题直接相关(1-5分) | 40% | | 事实准确性 | 是否存在事实错误(1-5分) | 30% | | 可读性 | 语句是否通顺、符合语法(1-3分) | 20% | | 价值观安全 | 是否包含敏感/偏见内容(一票否决) | 10% | ``` - **操作规范**: - 提供标注手册(例:如何界定“中性评论”) - 使用Kappa系数检验标注一致性(通常要求>0.6) --- ### **三、评估指标设计流程** 1. **需求拆解** - 与业务方确认核心目标(例:风控场景“宁可错杀可漏杀”) - 识别约束条件(如模型延迟必须≤300ms) 2. **指标候选集构建** - 技术指标:从算法论文/实践中选择(如目标检测用mAP) - 业务指标:通过用户调研、历史数据分析提取(例:发现客服对话中70%的用户问题集中在5类意图) 3. **指标权重分配** - 使用层次分析法(AHP)量化优先级: - 业务专家对指标两两比较重要性 - 计算权重向量(需通过一致性检验) 4. **基线设定与迭代** - 基于当前业务表现设定基线(例:现有规则引擎漏杀率3%,目标微调后降至1%) - 动态调整:当业务场景变化(如新增商品品类)时重新校准指标 --- ### **四、常见误区与解决方案** | 误区类型 | 典型案例 | 解决方案 | |-------------------------|-----------------------------------|-------------------------------| | **指标与业务目标脱节** | 优化翻译模型的BLEU值,但实际用户更关注术语准确性 | 增加术语准确率专项评估 | | **单一指标过拟合** | 为提升F1值过度调整阈值,导致用户体验下降 | 加入人工评估或满意度调查 | | **忽略数据分布影响** | 在类别均衡数据中使用准确率(如欺诈检测) | 改用F1值或AUC-ROC | | **评估场景覆盖全** | 只测试高频case,未覆盖边缘场景(如方言识别) | 构建包含长尾case的测试集 | --- ### **五、典型案例分析** #### **案例:智能客服意图识别微调** - **业务需求**:减少转人工率(当前30% → 目标15%) - **指标设计过程**: 1. 拆解技术指标: - 意图分类准确率(F1值) - 未知意图检测召回率(识别用户问题是否超出预设范围) 2. 定制业务指标: - 转人工率 = $\frac{\text{主动请求人工的会话数}}{\text{总会话数}}$ - 问题解决率(通过用户反馈按钮统计) 3. 人工评估规则: - 抽样检查模型是否将“我要退订套餐”错误归类为“查询套餐” --- ### **六、协作关键点** 1. **指标透明化**:向算法团队解释为何选择特定指标(例:为何用准确率而用F1值) 2. **工具共建**:开发自动化评估脚本(如定期运行测试集生成指标报告) 3. **冲突调解**:当技术指标提升但业务指标下降时,推动根因分析(如模型过度压缩导致效果损失) 通过科学设计评估指标,AI产品经理能有效引导算法优化方向,避免“模型表现好但业务价值低”的常见困局。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俊红的数据分析之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值