概率空间中的监督分类及相关实验探索
1. 引言
在文档分类领域,监督分类方法是一种重要的手段。本文将聚焦于概率空间中的监督分类方法,尤其是似然比方法,并通过实验展示其在文档分类中的应用。同时,还会介绍多层感知器(MLP)在潜在狄利克雷分配(LDA)主题概率空间中的分类应用,最后探讨不同分类方法的性能比较及相关实验。
2. 似然比框架
2.1 二元分类准则
考虑将给定数据集划分为两个互斥类别 A 和 B 的情况。根据贝叶斯规则,给定观察文档 D 时,每个类别的发生概率可以表示为:
[p(A|D) = \frac{p(D|A) \times p(A)}{p(D)}]
[p(B|D) = \frac{p(D|B) \times p(B)}{p(D)}]
取两者的比值可得:
[ \frac{p(A|D)}{p(B|D)} = \frac{p(D|A)}{p(D|B)} \times \frac{p(A)}{p(B)} ]
这个结果为二元分类提供了一个简单的准则:如果 (\frac{p(A|D)}{p(B|D)} > 1),则文档 D 最有可能属于类别 A;否则,文档 D 最有可能属于类别 B。为了评估这个概率比是否大于或小于 1,我们考虑对等式右边取对数:
[ \log(\frac{p(D|A)}{p(D|B)}) + \log(\frac{p(A)}{p(B)}) ]
进一步化简后,似然比分类准则可以重述为:
[ D \leftarrow A \quad \text{if} \quad [\log(p(D|A)) - \log(p(D|B))] > \zeta ] <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



