Information Gain 计算 python实现

最新推荐文章于 2024-04-28 16:33:53 发布

原创最新推荐文章于 2024-04-28 16:33:53 发布 · 5.4k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #math #import #up #ie

Python 同时被 2 个专栏收录

5 篇文章

订阅专栏

Linux

5 篇文章

订阅专栏

本文介绍了信息熵的计算方法，并提供了Python实现。包括了单一分布的信息熵计算函数I(*args)、多分类情况下的信息熵计算函数E(num,*args)，以及信息增益计算函数Gain(i,e)。这些函数可用于评估数据集的不确定性，为决策树等机器学习算法提供支持。

from math import log

def I(*args):
    total = sum(args) + 0.0
    result = 0.0
    for i in args:
        if i == 0:
            result += 0
        else:
            result += i / total * log( i / total, 2)
    return -result

#num表示分类的个数
def E(num, *args):
    if len(args) % num != 0:
        print "Error len(args)"
    result = 0.0
    total = sum(args)
    for x in xrange(len(args) / num):
        k = x * num
        total_up = 0.0 + sum(args[k:k + num])
        result += total_up / total * I(*args[k:k + num])
    return result

def Gain(i, e):
    return i - e

#取个别名
i = I
e = E
g = Gain

if __name__ == "__main__":
    #for example
    print i(9, 5)
    print e(2, 2, 3, 4, 0, 3, 2)