硬件感知概率电路:从实验到运行时策略
1. 有偏PSDD学习实验
1.1 增量PSDD学习方法性能对比
增量PSDD学习方法在对数似然和准确率方面与模型大小存在权衡关系。其中,MI和CMI分别表示特征与类别变量之间的互信息和条件互信息的vtree学习。在大多数基准测试中,该方法优于贝叶斯分类器,因为学习到的PSDD更具表达能力,能编码变量集之间的复杂关系和局部依赖,同时保持可处理性。此外,D - LEARNPSDD在准确率方面与逻辑回归(LogReg)具有竞争力。
1.2 Vtree对判别性能的影响
Vtree在很大程度上决定了学习到的PSDD的结构和大小,也对其编码的概率分布质量(以对数似然衡量)起着重要作用。以“Chess”数据集为例,通过对比三种学习方法(D - LEARNPSDD在vtree学习阶段优化互信息、优化条件互信息,以及传统的LEARNPSDD),可以看到:
- 在学习初期,LEARNPSDD的似然提升速度较快,但最终与D - LEARNPSDD达到相同值,因为两者都优化对数似然。
- 判别偏差保证了初始模型的分类准确率至少与朴素贝叶斯分类器相当。在CMI情况下,其准确率始终优于纯生成的LEARNPSDD方法。
- 优化vtree的条件互信息相比于优化互信息,在性能与准确率的权衡上表现更好,因为条件互信息目标函数与PSDD结构上的条件独立性约束一致,能让模型在判别任务中考虑类别变量的特殊地位。
数据集 | D - LearnPSDD(准确率) | D - LearnPSDD(大小) |
---|