基于熵距离的生成特征集与处理不平衡数据集的混合方法
1. 基于熵距离的生成特征集
在机器学习领域,有一种框架可推广到包含能分离样本行为的混合变量的生成模型。其中,高斯混合模型(MOG)是具有此类特征且最为著名和简单的生成模型,它可被视为隐马尔可夫模型(HMM)的一个切片。
给定一组样本 $X = {X^{(j)}} {j=1}^{J}$,高斯混合模型的联合分布为:
$P(C, X) = \sum {c} P(C = c) \cdot P(X|C = c) = \prod_{j=1}^{J} \left(\sum_{c} \pi_{c} \cdot N(X^{(j)}; \mu_{c}, \Sigma_{c})\right)$
对于每个样本,在 E - 步计算责任 $P(C = c|X^{(j)})$,然后收集这些统计信息以计算均值 $\mu_{c}$ 和协方差矩阵 $\Sigma_{c}$(M - 步)。此时,熵特征的推导可表示为:
$H_{\mu}(c) = -P(C = c|X^{(j)}) \cdot \log N(X^{(j)}; \mu_{c}, \Sigma_{c})$
$H_{p}(c) = -P(C = c|X^{(j)}) \cdot \log \pi_{c}$
由此得到特征提取算子:
$\varphi(X^{(j)}, MOG) : x_{t} \to [\cdots, H_{\mu}(c), \cdots, \cdots, H_{p}(c), \cdots]$
1.1 高斯混合模型实验
为了验证提出的特征能够为判别分类器带来生成信息,
超级会员免费看
订阅专栏 解锁全文
1311

被折叠的 条评论
为什么被折叠?



