
数据挖掘
karl_ll
专注于用一篇文章解决一个问题,而不是长篇大论。
展开
-
基尼系数和信息熵的概念和公式
一、GINI系数(基尼系数)衡量数据的不纯度或者不确定性。值越大样本集合的不确定性也越大。G=1−∑i=1kp12G= 1-\sum_{i=1}^kp1^2G=1−i=1∑kp12GINI指标:取值范围(0-0.5)基于GINI指标的算法:Cart二、INFO (信息熵)信息熵:对信息的量化度量,反映信息所携带的信息量大小。基于INFO指标的算法:ID3、C4.5。信息增益增益率指标(C4.5)错误率(取值范围:0.5-1)...原创 2020-09-26 22:49:40 · 2801 阅读 · 0 评论 -
距离和相似度总结
常见的距离算法闵可夫斯基距离(Minkowski Distance)闵氏距离没有考虑特征参数间的相关性,马哈拉诺比斯距离解决了这个问题。公式: D(x,y)=(∑u=1n∣xu−yu∣p)1/pD(x,y) = (\sum^n_{u=1}|x_u-y_u|^p)^{1/p}D(x,y)=(∑u=1n∣xu−yu∣p)1/p曼哈顿距离(Manhattan Distance)p =1时,闵可夫斯基距离就是曼哈顿距离公式: D(x,y)=(∑u=1n∣xu−yu∣p)1/pD(x.原创 2020-09-26 18:37:13 · 475 阅读 · 0 评论