概述
我们之前讨论过生成模型的特征,根据贝叶斯公式我们通过计算p(x|y=c,θ)p(y=c|θ)来估计p(p=c|x,θ),使用这个模型的关键是我们需要找到一个合适的类条件密度p(x|y=c,θ)p(y=c|θ),这一章的前提假设是样本都是离散数据。
贝叶斯概念学习
在孩子学习“狗”这个概念的时候,父母会指着狗对孩子说”看这是一只狗“。孩子就对正确的狗有了概念,然而,我们一般不会提供直接提供负样本,比如说“看,那不是一只狗”。只有在孩子对猫说“狗狗”的时候,我们会纠正他。但总而言之,我们可以从正负样本中去学习新的概念。
这样新的概念的学习,我们也叫做分类。
似然概率
h是我们的假设,p(D|h)表示在假设h的情况下,生成样本D的概率是多少。对于离散样本,我们有p(D|h)=[1|h|]N,其中N是D的个数。
先验概率
单独的追求似然概率并不完善,因为先验概率也非常重要,就好比有一些数据1200,1500,900。如果我说他们有一定数学规则,那么你会觉得400比1183和这组数据更像。然而,如果告诉你这个是人卡路里的摄入量,那么1183就会比400更接近数据集。所以我们还需要先验概率。
后验概率
p(h|D)∝p(D|h)p(h),这是后验概率。
我们在预测p(x∈C|D