分类误差界与信息论聚类方法解析
在分类和聚类的研究领域中,误差界的确定以及聚类算法的优化是至关重要的。下面将详细介绍分类误差界的相关理论,以及基于信息论的聚类方法。
分类误差界
- Fano界的改进 :Fano推导中的式(6.34)存在误差概率出现在不等式两边,且分母限制其在两类情况应用的问题。为解决这些问题,将二元误差的Shannon熵$h_S(p_e)$替换为其最大值$\log_2 2 = 1$,分母替换为更大的$\log N_c$,同时根据式(6.29)用边际熵和互信息项之和替换条件熵,得到常见的Fano界表达式:
$$p_e \geq \frac{H_S(Y) - I_S(Y, C) - 1}{\log N_c}$$
然而,在不实现分类器的情况下用合理的量替换$h_S(p_e)$并非易事,这对界的紧密性至关重要。 - 基于Renyi熵和互信息的界
- 推导基础 :对Renyi的条件熵、联合熵和互信息定义应用Jensen不等式,可得到误差概率的上下界。由于Renyi互信息和条件熵不满足式(6.34)的恒等式,这些界需从其基本定义分别推导。为简便,仅给出使用条件熵的界的推导。
- Jensen不等式 :假设$g(x)$是凸函数(若为凹函数则不等式反向),且$x \in [a, b]$;对于$\sum_{k} w_k = 1$,$w_k > 0$,有$g(\sum_{k} w_k x_k) \leq \sum_{k} w_k g(x_k)$。
超级会员免费看
订阅专栏 解锁全文
601

被折叠的 条评论
为什么被折叠?



