最大互信息系数

本文探讨最大互信息系数(MIC)的概念,它用于衡量特征变量间的关联性,尤其适用于非线性关系。MIC通过散点图网格化求取互信息并进行归一化。内容涉及MIC的计算步骤、与数据分布的关系,以及实例分析,指出在离散且偏态分布的数据中,最大信息系数可能不为1。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对最大互信息系数的一些思考

最大互信息系数(MIC)

MIC(Maximal Information Coefficient)最大互信息系数。用来衡量两个特征变量之间的关联程度(线性或非线性关系),相较于Mutual Information(MI)互信息而言有更高的准确度。其主要思想是:如果两个变量之间存在一定的相关性,那么在这两个变量的散点图上进行某种网格划分之后,根据这两个变量在网格中的近似概率密度分布,可计算这两个变量的互信息,正则化后,该值可用于衡量这两个变量之间的相关性
MIC 基本原理会利用到互信息概念,互信息的概念使用以下方程来说明:
在这里插入图片描述
MIC的想法是针对两个变量之间的关系离散在二维空间中,并且使用散点图来表示,将当前二维空间在 x,y 方向分别划分为一定的区间数,然后查看当前的散点在各个方格中落入的情况,这就是联合概率的计算,这样就解决了在互信息中的联合概率难求的问题。下面是MIC的计算公式:
在这里插入图片描述
上式中 a,b 是在 x,y 方向上的划分格子的个数,本质上就是网格分布,B 是变量,在原作者的论文中提到 B 的大小设置是数据量的 0.6 次方左右。
算法的通俗理解:
MIC计算分为三个步骤:

  1. 给定i、j,对X、Y构成的散点图进行i列j行网格化,并求出最大的互信息值
  2. 对最大的互信息值进行归一化
  3. 选择不同尺度下互信息的最大值作为MIC值

最大互信息的求取与数据自身的分布有关系?

在对变量之间的非线性相关性进行分析时,发现有的变量其自身的最大互信息系数都不为1。因此,画出这几个变量与其他几个互信息系数为1的变量进行比较。

在这里插入图片描述
在这里插入图片描述
求最大的互信息系数时,首先需要对给定的X、Y的散点图进行网格化,再求不同网格化方案下的互信息值,找到最大互信息值。这样,由于碳目标值分布具有离散性,而网格化的过程又具有随机性,从而导致最大互信息不为1。
人造了2000个数据点,分布如下图,其分布如下,可看出这些数据点虽然离散但是分布较为均匀,计算得到的最大信息系数为1。
在这里插入图片描述


                
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值