24、分类误差界与信息论聚类方法解析

分类误差界与信息论聚类方法解析

在分类和聚类的研究领域中,误差界的确定以及聚类算法的优化是至关重要的。下面将详细介绍分类误差界的相关理论,以及基于信息论的聚类方法。

分类误差界
  • Fano界的改进 :Fano推导中的式(6.34)存在误差概率出现在不等式两边,且分母限制其在两类情况应用的问题。为解决这些问题,将二元误差的Shannon熵$h_S(p_e)$替换为其最大值$\log_2 2 = 1$,分母替换为更大的$\log N_c$,同时根据式(6.29)用边际熵和互信息项之和替换条件熵,得到常见的Fano界表达式:
    $$p_e \geq \frac{H_S(Y) - I_S(Y, C) - 1}{\log N_c}$$
    然而,在不实现分类器的情况下用合理的量替换$h_S(p_e)$并非易事,这对界的紧密性至关重要。
  • 基于Renyi熵和互信息的界
  • 推导基础 :对Renyi的条件熵、联合熵和互信息定义应用Jensen不等式,可得到误差概率的上下界。由于Renyi互信息和条件熵不满足式(6.34)的恒等式,这些界需从其基本定义分别推导。为简便,仅给出使用条件熵的界的推导。
  • Jensen不等式 :假设$g(x)$是凸函数(若为凹函数则不等式反向),且$x \in [a, b]$;对于$\sum_{k} w_k = 1$,$w_k > 0$,有$g(\sum_{k} w_k x_k) \leq \sum_{k} w_k g(x_k)$。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值