贝叶斯学习
常用概率公式
乘法规则
- P(AB)=P(B)P(A∣B)P(AB)=P(B)P(A|B)P(AB)=P(B)P(A∣B)
=P(A)P(B∣A)=P(A)P(B|A)=P(A)P(B∣A)
=P(BA)=P(BA)=P(BA)
全概率公式
- 若事件 AiA_iAi 互斥,且 ∑i=1nP(Ai)=1\sum_{i=1}^nP(A_i)=1∑i=1nP(Ai)=1
- 则 P(B)=∑i=1nP(B∣Ai)P(Ai)P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)P(B)=∑i=1nP(B∣Ai)P(Ai)
贝叶斯定理
先验概率
- P(A)P(A)P(A) :AAA 的先验概率
- P(B)P(B)P(B) :BBB 的先验概率
条件概率
- P(A∣B)P(A|B)P(A∣B) :BBB 成立时 AAA 的概率
后验概率
- P(B∣A)P(B|A)P(B∣A) :AAA 成立时 BBB 的概率
贝叶斯定理
- P(B∣A)=P(A∣B)P(B)P(A)P(B|A)=\frac{P(A|B)P(B)}{P(A)}P(B∣A)=P(A)P(A∣B)P(B)
定义变量
- 样本 xxx 包含 ddd 个属性,即x={x1,x2,...,xd}x=\{x_1,x_2,...,x_d\}x={x1,x2,...,xd}
- 存在NNN 种可能的类别标记,Y={c1,c2,...,cN}Y=\{c_1,c_2,...,c_N\}Y={c1,c2,...,cN}
- 先验概率 P(ci)P(c_i)P(ci),条件概率 P(x∣ci)P(x|c_i)P(x∣ci),后验概率 P(ci∣x)P(c_i|x)P(ci∣x)
风险
- 风险 = 原本为 cjc_jcj 的样本误分类为 cic_ici 产生的期望损失
- 期望损失 = 概率 × 损失
- 即风险 R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)R(ci∣x)=∑j=1NλijP(cj∣x)
- λij=0 if i=j\lambda_{ij}=0 \ \ \ \ \ if \ i=jλij=0 if i=j
1 else1 \ \ \ \ \ else1 else - 总体风险:R(h)=Ex(R(c∣x))R(h)=\mathbb{E}_x(R(c|x))R(h)=Ex(R(c∣x))
- 并且 R(c∣x)=1−P(c∣x)R(c|x)=1-P(c|x)R(c∣x)=1−P(c∣x)
贝叶斯最优分类器
为最小化总体风险,只需在每个样本上选择能够使条件风险最小的类别标记
- h∗(x)=argminc∈yR(c∣x)h^*(x)=\arg\min_{c\in y}R(c|x)h∗(x)=argminc∈yR(c∣x)
=argmaxc∈yP(c∣x)=\arg\max_{c\in y}P(c|x)=argmaxc∈yP(c∣x) - h∗h^*h∗ 称为贝叶斯最优分类器
朴素贝叶斯分类器
朴素贝叶斯分类器假设每个属性独立的对分类结果发生影响
- P(c∣x)=P(c)P(x∣c)P(x)=P(c)P(x)Πj=1dP(xj∣c)P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\Pi_{j=1}^dP(x_j|c)P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)Πj=1dP(xj∣c)
- 由于对于所有的类别 P(x)P(x)P(x) 相同,所以:
- hNB(x)=argmaxc∈YP(c)Πj=1dP(xj∣c)h^{NB}(x)=\arg\max_{c\in Y}P(c)\Pi_{j=1}^dP(x_j|c)hNB(x)=argmaxc∈YP(c)Πj=1dP(xj∣c)
极大似然估计 (MLE估计)
核心思想
- 样本集 D={x1,x2,...,xN}D=\{x_1,x_2,...,x_N\}D={x1,x2,...,xN} 固定且已知
- 待估计的模型参数 θ\thetaθ 固定且未知
- 输入:样本集 DDD 和 模型参数 θ\thetaθ
- 输出:似然函数
- 在模型参数 θ\thetaθ 所有可能的取值中
- 找到一个能使似然函数取得最大值的参数值
公式
- 参数 θ\thetaθ 对于数据集 DDD 的似然:
- L(θ)≜p(D∣θ)=Πi=1Np(xi∣θ)L(\theta)\triangleq p(D|\theta)=\Pi_{i=1}^Np(x_i|\theta)L(θ)≜p(D∣θ)=Πi=1Np(xi∣θ)
- p(D∣θ)p(D|\theta)p(D∣θ) 为联合密度函数
对数似然公式
- LL(θ)=logL(θ)=∑i=1Nlogp(xi∣θ)LL(\theta)=\log L(\theta)=\sum_{i=1}^N\log p(x_i|\theta)LL(θ)=logL(θ)=∑i=1Nlogp(xi∣θ)
- θ^=argmaxθLL(θ)\hat{\theta}=\arg\max_{\theta}LL(\theta)θ^=argmaxθLL(θ)
求解似然函数
- 若似然函数连续、可微
- 则解为:d(L(θ))dθ=0\frac{\mathrm{d}(L(\theta))}{\mathrm{d}\theta}=0dθd(L(θ))=0 或 d(LL(θ))dθ=0\frac{\mathrm{d}(LL(\theta))}{\mathrm{d}\theta}=0dθd(LL(θ))=0 的解
最大后验概率估计 (MAP估计)
核心思想
- 样本集 DDD 固定且已知
- 待估计的模型参数 μ\muμ 固定且未知
- 输入:样本集 DDD 和 模型参数 μ\muμ
- 输出:似然函数
- 在模型参数 μ\muμ 所有可能的取值中
- 找到一个能使似然函数取得最大值,并且 μ\muμ 的先验概率最大的的参数值
公式
- μ^MAP=argmaxμp(μ∣D)\hat{\mu}_{MAP}=\arg\max_\mu p(\mu|D)μ^MAP=argmaxμp(μ∣D)
=argmaxμp(D∣μ)p(μ)p(D)=\arg\max_\mu \frac{p(D|\mu)p(\mu)}{p(D)}=argmaxμp(D)p(D∣μ)p(μ)
=argmaxμp(D∣μ)p(μ)=\arg\max_\mu p(D|\mu)p(\mu)=argmaxμp(D∣μ)p(μ)
求解MAP函数
- 若MAP函数连续、可微
- 则解为:目标函数=0 的解