贝叶斯分类器在预先给定代价的情况下平均风险最小的分类器。
分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率。
贝叶斯分类器的基础
贝叶斯公式
P(H∣X)=P(X∣H)P(H)P(X)P(H|X)=\frac{P(X|H)P(H)}{P(X)}P(H∣X)=P(X)P(X∣H)P(H)其中,X表示n个属性的测量描述;
H为某种假设,比如假设某观察值X属于某个特定的类别C;
P(X)则是X的先验概率, P(H)也是先验概率;
P(X|H)是类条件概率,也叫似然;
P(H|X)是后验概率,即在条件X下,H的后验概率;
对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到假设H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。
举个栗子,假设数据属性仅限于用教育背景和收入来描述顾客,而X是学历是硕士,收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机。
- P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;
- P(X|H)则表示如果已知顾客将购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;
- P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;
- P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。
模型表示
对每个样本xxx选择能使后验概率P(c∣x)P(c|x)P(c∣x)最大的类别标记:
(1)h∗(x)=argmaxc∈YP(c∣x)=argmaxc∈YP(x∣c)P(c)P(x)h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} \frac{P(x|c)P(c)}{P(x)}\tag 1h∗(x)=argc∈YmaxP(c∣x)=argc∈Ymax