贝叶斯分类器

最新推荐文章于 2022-04-19 19:42:14 发布

Albert_Bolt

最新推荐文章于 2022-04-19 19:42:14 发布

阅读量330

点赞数

CC 4.0 BY-SA版权

分类专栏：其他文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/Albert_Bolt/article/details/86803790

其他专栏收录该内容

5 篇文章

订阅专栏

贝叶斯学习

常用概率公式

乘法规则

$P (A B) = P (B) P (A ∣ B)$
$= P (A) P (B ∣ A)$
$= P (B A)$

全概率公式

若事件 $A_i$ 互斥，且 $∑i=1nP(Ai)=1\sum_{i=1}^nP(A_i)=1$
则 $P(B)=∑i=1nP(B∣Ai)P(Ai)P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$

贝叶斯定理

先验概率

$P (A)$ ： $A$ 的先验概率
$P (B)$ ： $B$ 的先验概率

条件概率

$P (A ∣ B)$ ： $B$ 成立时 $A$ 的概率

后验概率

$P (B ∣ A)$ ： $A$ 成立时 $B$ 的概率

贝叶斯定理

$P(B∣A)=P(A∣B)P(B)P(A)P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

定义变量

样本 $x$ 包含 $d$ 个属性，即 $x=\{x_1,x_2,...,x_d\}$
存在 $N$ 种可能的类别标记， $Y=\{c_1,c_2,...,c_N\}$
先验概率 $P(c_i)$ ，条件概率 $P(x|c_i)$ ，后验概率 $P(c_i|x)$

风险

风险 = 原本为 $c_j$ 的样本误分类为 $c_i$ 产生的期望损失
期望损失 = 概率 × 损失
即风险 $R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)$
$i=j\lambda_{ij}=0 \ \ \ \ \ if \ i=j$
$\ \ \ \ \ else$
总体风险： $R(h)=Ex(R(c∣x))R(h)=\mathbb{E}_x(R(c|x))$
并且 $R (c ∣ x) = 1 - P (c ∣ x)$

贝叶斯最优分类器

为最小化总体风险，只需在每个样本上选择能够使条件风险最小的类别标记

$h∗(x)=arg⁡min⁡c∈yR(c∣x)h^*(x)=\arg\min_{c\in y}R(c|x)$
$=arg⁡max⁡c∈yP(c∣x)=\arg\max_{c\in y}P(c|x)$
$h^*$ 称为贝叶斯最优分类器

朴素贝叶斯分类器

朴素贝叶斯分类器假设每个属性独立的对分类结果发生影响

$P(c∣x)=P(c)P(x∣c)P(x)=P(c)P(x)Πj=1dP(xj∣c)P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\Pi_{j=1}^dP(x_j|c)$
由于对于所有的类别 $P (x)$ 相同，所以：
$hNB(x)=arg⁡max⁡c∈YP(c)Πj=1dP(xj∣c)h^{NB}(x)=\arg\max_{c\in Y}P(c)\Pi_{j=1}^dP(x_j|c)$

极大似然估计 (MLE估计)

核心思想

样本集 $D=\{x_1,x_2,...,x_N\}$ 固定且已知
待估计的模型参数 $θ\theta$ 固定且未知
输入：样本集 $D$ 和模型参数 $θ\theta$
输出：似然函数
在模型参数 $θ\theta$ 所有可能的取值中
找到一个能使似然函数取得最大值的参数值

公式

参数 $θ\theta$ 对于数据集 $D$ 的似然：
$L(θ)≜p(D∣θ)=Πi=1Np(xi∣θ)L(\theta)\triangleq p(D|\theta)=\Pi_{i=1}^Np(x_i|\theta)$
$p(D∣θ)p(D|\theta)$ 为联合密度函数

对数似然公式

$LL(θ)=log⁡L(θ)=∑i=1Nlog⁡p(xi∣θ)LL(\theta)=\log L(\theta)=\sum_{i=1}^N\log p(x_i|\theta)$
$θ^=arg⁡max⁡θLL(θ)\hat{\theta}=\arg\max_{\theta}LL(\theta)$

求解似然函数

若似然函数连续、可微
则解为： $d(L(θ))dθ=0\frac{\mathrm{d}(L(\theta))}{\mathrm{d}\theta}=0$ 或 $d(LL(θ))dθ=0\frac{\mathrm{d}(LL(\theta))}{\mathrm{d}\theta}=0$ 的解

最大后验概率估计 (MAP估计)

核心思想

样本集 $D$ 固定且已知
待估计的模型参数 $μ\mu$ 固定且未知
输入：样本集 $D$ 和模型参数 $μ\mu$
输出：似然函数
在模型参数 $μ\mu$ 所有可能的取值中
找到一个能使似然函数取得最大值，并且 $μ\mu$ 的先验概率最大的的参数值

公式

$μ^MAP=arg⁡max⁡μp(μ∣D)\hat{\mu}_{MAP}=\arg\max_\mu p(\mu|D)$
$=arg⁡max⁡μp(D∣μ)p(μ)p(D)=\arg\max_\mu \frac{p(D|\mu)p(\mu)}{p(D)}$
$=arg⁡max⁡μp(D∣μ)p(μ)=\arg\max_\mu p(D|\mu)p(\mu)$