概述,贝叶斯策略,最大似然估计
标签: 模式分类
@author lancelot-vim
绪论
宽度和数量直方图:
光泽度和数量直方图:
宽度-光泽度联合分类图:
简单归纳:
- 从单一特征得到的分类一般不强
- 将单一特征组合起来成多特征分类能得到更强的分类器
- 分类器模型简单(如图中红色线条)会比较弱,分类器太强(如图中蓝色线条)可能会过分类
- 以上问题,可能会存在如果鲈鱼分错,可能不会有太大的问题,但反之可能造成很大的影响
问题:
- 如何选择特征
- 如何选择分类器
- 分类之后如何采取行动
处理方案流程图:
贝叶斯决策论
引言
条件概率密度与贝叶斯公式
P(w1)=23 , P(w2)=13 时的后验概率:
误差定义:
p(error)={
p(w1|x)p(w2|x)x∈w2x∉w2
总误差为: P(error)=∫∞−∞p(error,x)dx=∫∞−∞p(error|x)p(x)dx
对 ∀x , 若 p(error|x) 尽量小, 那么 P(error) 就尽量小, 所以令 p(error|x)=min[p(w1|x),p(w2|x)]
连续特征的贝叶斯决策论
- 允许使用多于一个的特征
- 允许使用两种类别以上的情形
- 允许有其他行为而不仅仅只是判定类别
- 通过引入一个更一般的损失函数来代替误差概率
以下4个约定:
1. {
w1,w2,w3,...wc} 表示c个类别(class)
2. {
α1,α2,α3....αa} 表示a中行动(action)
3. λ(αi|wj) 表示类别为 wj ,采取行为 αi 的损失
4. x⃗ 表示d维的特征
根据贝叶斯公式: p(wj|x⃗ )=p(x⃗ |wj)p(wj)p(x⃗ )
若观测到 x⃗ 0 ,采取行为 αi ,则损失为: R(αi|x⃗ 0) = ∑cj=1λ(αi|wj)p(wj|x⃗ 0)
总损失为: R=∫R(α(x⃗ )|x⃗ )P(x⃗ )dx⃗
若选择 α(x⃗ ) 使得: R(αi|x⃗ ) 对每个 x⃗ 尽可能小,则风险函数最小化
对于二分类问题
约定:
1. α1 对应于 w1
2. α2 对应于 w2
3. λij=λ(αi|