熵:通常指随机变量取值的不确定性
例如:在花坛边坐着一个人,我让你去猜他的性别?由于你不确定他是男还是女,只能随机猜测一个,此时的熵就等于1,对其取值的不确定性等于1,如图所示:当X轴取0.5时,不确定性最大为1.
熵计算公式:
信息增益:指当知道了另外一个属性时,对随机变量取值的不确定性减了多少。
例子:还是猜男女,假如现在有一个“抽烟”的属性
X:{a:[‘smoke’],b:[‘None-smoker’]}
不抽烟男女比例:8:2
抽烟男女比例为:95:5
此时的熵为:
由于抽样比例为4:6,40%的人抽烟,而60%的人不抽烟,可得
信息增益来了,就是原熵减去得知另一属性后的熵所得的差,即为信息增益。
熵和信息增益
最新推荐文章于 2024-04-30 00:01:02 发布