熵权法
概述
**熵权法(Entropy Weight Method,EWM)**是一种客观赋权的方法,原理:指标的变异程度越小,所包含的信息量也越小,其对应的权值应该越低(例如,如果对于所有样本而言,某项指标的值都相同,则该指标无参考价值,即信息量为0,权值应为0)。
如何衡量信息量大小?越不可能发生的事件信息量越多,越有可能发生的事情信息量越少。例如一个全校前几名的尖子生小王考上了清华,大家都觉得天经地义,里面没什么信息量;而如果有一天成绩很差的小张考上了清华,让大家很诧异,这里面包含的信息量就很大了。于是我们可以用概率衡量信息量。
信息量用I表示,概率用p表示,设x表示事件X可能发生的某种情况,我们可以建立I和p的函数关系
I
(
x
)
=
−
l
n
(
p
(
x
)
)
I(x)=-ln(p(x))
I(x)=−ln(p(x))
下面引入信息熵的概念,设事件X可能发生的情况为 x 1 、 x 2 、 . . . 、 x n x_1、x_2、...、x_n x1、x2、...、xn
则信息熵被定义为
H
(
x
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
n
(
p
(
x
i
)
)
H(x)=-\sum_{i=1}^{n}p(x_i)ln(p(x_i))
H(x)=−i=1∑np(xi)ln(p(xi))
在概率论中我们知道离散型随机变量数学期望的定义为
E
(
x
)
=
∑
i
=
1
n
x
i
p
(
x
i
)
E(x)=\sum_{i=1}^{n}x_{i}p(x_{i})
E(x)=∑i=1nxip(xi),可以指定信息熵即信息量的数学期望。在热力学中,熵定义一个热力学系统的无序程度,即越无序,熵越大,信息量越小;类比到信息论中,我们可以得出以下结论:
信息熵越大,信息量越小
从数学角度来理解,可以证明,当 p ( x 1 ) = p ( x 2 ) = ⋯ = p ( x n ) = 1 n p(x_1)=p(x_2)=\cdots=p(x_n)=\frac{1}{n} p(x1)=p(x2)=⋯=p(xn)=n1时,信息熵取最大值 l n ( n ) ln(n) ln(n)。对其做出直观解释:当所有可能发生的情况等概率时,表面该过程为完全随机过程,无任何信息量。
结合熵权法的Topsis模型
Step1:对输入矩阵正向化、标准化
正向化在上一节中已详细讨论,标准化可以采用L2正则化。如果正向化后矩阵中有负数,但为了避免标准化后的结果出现负值(后续概率计算不能有负值),也可以采用 x i ′ = x i − x m i n x m a x − x m i n x_{i}'=\frac{x_{i}-x_{min}}{x_{max}-x_{min}} xi′=xmax−xminxi−xmin归一标准化。
Step2:对于每个指标(每一列),用样本值占比表示其概率
p i j = z i j ∑ i = 1 n z i j p_{ij}=\frac{z_{ij}}{\sum_{i=1}^{n}z_{ij}} pij=∑i=1nzijzij
Step3:计算每个指标的信息熵,并计算信息效用值,归一化的得到每个指标的熵权
这里每个指标的信息熵计算公式:
e
j
=
−
1
l
n
(
n
)
∑
i
=
1
n
p
i
j
l
n
(
p
i
j
)
e_{j}=-\frac{1}{ln(n)}\sum_{i=1}^{n}p_{ij}ln(p_{ij})
ej=−ln(n)1i=1∑npijln(pij)
定义信息效用值
d
j
=
1
−
e
j
d_j=1-e_j
dj=1−ej
将信息效用值归一化得到指标熵权
W
j
=
d
j
∑
i
=
1
m
d
j
W_j=\frac{d_{j}}{\sum_{i=1}^{m}d_{j}}
Wj=∑i=1mdjdj
信息熵越小,信息效用值越大,指标信息量越大,熵权越大