为什么条件熵用联合概率加权?:条件概率P(A∣B)=P(AB)P(B)H(Y∣X)=∑i=1np(xi)H(Y/xi)=−∑i=1np(xi)∑j=1mp(yj/xi)log(p(yj/xi))=−∑i=1n∑j=1mp(xi)p(yj/xi)log(p(yj/xi))=−∑i∑jp(xi,yj)log(yj∣xi) 为什么条件熵用联合概率加权? :条件概率P(A|B)=\frac{P(AB)}{P(B)}\\ H(Y|X)=\sum_{i=1}^n p(x_i)H(Y/x_i) =-\sum_{i=1}^n p(x_i)\sum_{j=1}^m p(y_j/x_i)log(p(y_j/x_i)) \\ =-\sum_{i=1}^n \sum_{j=1}^m p(x_i) p(y_j/x_i)log(p(y_j/x_i)) \\ =-\sum_i \sum_j \color{red} p(x_i,y_j)log(y_j|x_i) 为什么条件熵用联合概率加权?:条件概率P(A∣B)=P(B)P(AB)H(Y∣X)=i=1∑np(xi)H(Y/xi)=−i=1∑np(xi)j=1∑mp(yj/xi)log(p(yj/xi))=−i=1∑nj=1∑mp(xi)p(yj/xi)log(p(yj/xi))=−i∑j∑p(xi,yj)log(yj∣xi)