信息量越大,不确定性越小,熵值越小,权重越大。
信息量越小,不确定性越大,熵值越大,权重越小。
举个栗子:
A要发送一个数字1给B。
若不受干扰信息的分布式是:
0%变为0,100%为1,0%为2 :计算:-sum(p_i*ln(p_i))=0
发送途中受到干扰,此时1产生了变化。
20%可能变为0;50%为1;30%为2:计算:-sum(p_i*ln(p_i))>0
此时,不确定性增加了,B收到的不一定是原本的信息,所以信息量小了,此时熵值增大了。
容易发现分布越均匀信息量越小,熵值越大。
熵值最大时:
33.333%为0,33.333%为1,33.333%为2,此时计算熵值为1。信息完全丢失,B收到的数据无任何价值。
容易发现的是:
根据你的数据,数据计算前,应该先计算数据分布各学生分数/对应科目所有学生总分数:
学生 数学 体育 数学分布 体育分布 数学-p*LN(p) 体育-p*ln(p) 数学熵 体育熵 总分
学生5 100 90 6.90% 10.88% 0.18450371 0.241377935 2.770061734 2.505013889 502.4574234
学生3 97 89 6.69% 10.76% 0.181007621 0.239898405 2.770061734 2.505013889 491.6422243
学生13 88 98 6.07% 11.85% 0.170126782 0.2527425 2.770061734 2.505013889 489.2567937
学生7 77 100 5.31% 12.09% 0.155956805 0.255457619 2.770061734 2.505013889 463.7961424
学生2 80 96 5.52% 11.61% 0.159922833 0.249978022 2.770061734 2.505013889 462.0862721
学生12 98 76 6.76% 9.19% 0.182180002 0.219368105 2.770061734 2.505013889 461.8471055
学生9 99 56 6.83% 6.77% 0.183345342 0.182318462 2.770061734 2.505013889 414.5168894
学生14 88 56 6.07% 6.77% 0.170126782 0.182318462 2.770061734 2.505013889 384.0462104
学生6 90 43 6.21% 5.20% 0.17259747 0.153729138 2.770061734 2.505013889 357.0211533
学生11 89 32 6.14% 3.87% 0.171366003 0.125835794 2.770061734 2.505013889 326.6959388
学生8 88 32 6.07% 3.87% 0.170126782 0.125835794 2.770061734 2.505013889 323.925877
学生4 90 24 6.21% 2.90% 0.17259747 0.102725539 2.770061734 2.505013889 309.4258894
学生15 88 21 6.07% 2.54% 0.170126782 0.093275608 2.770061734 2.505013889 296.3707242
学生16 99 1 6.83% 0.12% 0.183345342 0.008123101 2.770061734 2.505013889 276.7411255
学生1 89 11 6.14% 1.33% 0.171366003 0.057459497 2.770061734 2.505013889 274.0906471
学生10 89 2 6.14% 0.24% 0.171366003 0.014569909 2.770061734 2.505013889 251.5455221
根据如上:数学信息熵为:2.70571272834853,体育信息熵为2.42484687963012。这里信息熵本应该应该进行一定的处理优化。但是目的是评分,所以细节就不要在意了
学生5是最好的,学生3第二。。。。。。
******************************************************************************************************************************************************************************************************
待进一步思考正确性:
对于连续分布来说,给定均值方差,最大化的熵值会推出正态分布,而在这种情况下,方差和熵都是成正比的,一个log函数曲线。
所以PCA在正态总体的假设情况下选择方差较大的向量,也是得到较大熵值的向量组合。