利用判别性偏差学习概率子句决策图进行分类任务
1. 引言
在资源受限的嵌入式系统中,机器学习模型的性能和效率一直是研究的热点。传统的生成式模型如贝叶斯网络在处理分类任务时表现良好,但它们通常对噪声和缺失数据的鲁棒性较差。为了提高分类性能并保持对缺失数据的鲁棒性,引入了判别性偏差。这种方法通过强制特征变量基于类别变量进行条件化,使得学习到的模型更适合分类任务。本文将详细介绍这种学习策略,探讨如何通过判别性偏差改进概率子句决策图(PSDDs)的学习过程,从而在分类任务中获得更好的性能。
2. 判别性偏差的引入
生成式学习器,例如LEARNPSDD,优化的是给定可用数据的分布的似然度,而不是给定完整特征变量集的类别变量的条件似然度。因此,它们的分类准确度有时与简单的模型如朴素贝叶斯(NB)及其近亲树增强朴素贝叶斯(TAN)相当,甚至更差,尽管它们编码的是简单或朴素的结构,但在分类任务上却表现得出奇地好。判别性偏差的引入旨在解决这一问题,通过强制特征变量基于类别变量进行条件化,使得学习到的模型更适合分类任务。
2.1 强制类别条件约束
判别性偏差通过强制所有特征变量以类别变量为条件,确保模型结构有利于分类。具体来说,学习到的PSDDs编码了所有特征对类别变量的条件依赖性。这可以通过以下公式实现:
[ \text{Pr}(C|F) \sim \text{Pr}(F|C) \cdot \text{Pr}(C) ]
其中,$\text{Pr}(F|C)$ 表示在给定类别变量 $C$ 的条件下,特征变量 $F$ 的概率分布;$\text{Pr}(C)$ 表示类别变量 $C$ 的先验概率。通过这种方式,生成式学
超级会员免费看
订阅专栏 解锁全文
41

被折叠的 条评论
为什么被折叠?



