集体编程智慧（决策树）-Gini Impurity 公式推导

最新推荐文章于 2025-10-12 12:02:03 发布

原创最新推荐文章于 2025-10-12 12:02:03 发布 · 801 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

集体编程智慧专栏收录该内容

1 篇文章

订阅专栏

本文介绍了基尼不纯度的概念及其在机器学习中的应用。通过具体的Python代码示例，详细解析了如何计算数据集的基尼不纯度，并探讨了一种计算方式背后的数学原理。

以下是《集体编程智慧中的代码》

def uniquecounts(rows):
   results={}
   for rowin rows:
      #
 The result is the last column
      r=row[len(row)-1]
      if rnot in results:
 results[r]=0
      results[r]+=1
   return results
 
def giniimpurity(rows):
  total=len(rows)
  counts=uniquecounts(rows)
  imp=0
  for k1in counts:
    p1=float(counts[k1])/total
    #imp+=p1*p1
    for k2in counts:
      if k1==k2:continue
      p2=float(counts[k2])/total
      imp+=p1*p2
  return imp#1-imp

基尼不纯度的大概意思是一个随机事件变成它的对立事件的概率。例如一个随机事件X ，P(X=0) = 0.5 ,P(X=1)=0.5那么基尼不纯度就为 P(X=0)*(1 - P(X=0)) + P(X=1)*(1 - P(X=1)) = 0.5

公式为：

而本书中并未使用这个公式（其实使用该公式会让代码更加清晰明了），接下来我们解释书中代码使用的数学内容：

假设：A+B+C=1

(A+B+C)(A+B+C)-(A*A+B*B+C*C)=2*(A*B+A*C+B*C)

1-(A*A+B*B+C*C)=2*(A*B+A*C+B*C)

等式左边就是基尼不纯度

博客等级

码龄9年

1
原创

1
点赞

1
收藏

0
粉丝

关注

私信

大家在看

LLM入门必看：Andrej Karpathy -Deep Dive into LLMs like ChatGPT 学习笔记 1099

TA的历史创作历程

分类专栏

集体编程智慧 1篇

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。