机器学习小结

χ2\chi^2χ2检验

χ2\chi^2χ2检验主要用于无参数的统计中,一般用来检验某一特征与类别的相关性,偏离度越大,χ2\chi^2χ2值越大。

双总体T检验

双总体T检验是检验两个样本平均数与其各自代表的总体的差异是否显著。

斯皮尔曼相关系数

斯皮尔曼相关系数(SpearmanCorrelationSpearman CorrelationSpearmanCorrelation)表明变量xxx(独立变量)与变量yyy(依赖变量)的相关方向。当xxx增加,yyy趋向于增加时,SpearmanSpearmanSpearman值为正,反之为负;SpearmanSpearmanSpearman值为0时,表明xxx增加时没有任何趋向性。

斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。

皮尔逊相关系数

皮尔逊相关系数(Pearson Correlation coefficient)用于度量变量XXXYYY之间的相关性(线性相关),其取值范围为[−1,1][-1, 1][1,1]

适用范围:当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

  1. 两个变量之间是线性关系,都是连续数据;
  2. 两个变量的总体是正态分布,或接近正态的单峰分布;
  3. 两个变量的观测值是成对的,每对观测值之间相互独立。

斯皮尔曼相关系数与皮尔逊相关系数均用于度量变量之间的线性相关性

余弦相似度

余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小的度量。余弦值越接近1,表明夹角越接近0°0\degree0°,两个向量就越相似。

信息熵

信息熵解决了对信息的量化度量问题,变量的不确定性越大,熵值也就越大。

互信息

互信息(Mutual Information)可以看成是一个随机变量中关于另一个随机变量的信息量,是变量间互相依赖性的度量.

距离相关系数

距离相关系数(Distance Correlation)是为了克服PearsonPearsonPearson相关系数的弱点而生。在一些情况下,即便PearsonPearsonPearson相关系数为0,也不能判定这两个变量是独立的(有可能是非线性相关的);但如果距离相关系数为0,我们就可以说这两个变量独立的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值