概率模型与贝叶斯统计-优快云博客

概率

先验概率：根据以前的经验，提前知道的事件概率;如：今天下雨的概率;
后验概率：由果及因，后知后觉，概率时间的结果推测原因起作用的概率;如，今天下雨，求有乌云的概率;
似然概率：由因及果，似然likehood自然的推测，都是知道原因，求原因造成结果发生的概率。如：今天阴天，求下雨的概率。

基本概率公式
加法规则： $P(x)=\sum_{y}{P(x,y)}$
乘法规则： $P (x, y) = P (x) P (y ∣ x)$
全概率公式： $P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i})$

似然函数
似然函数是一种关于统计模型参数的函数。给定输出时，关于参数 $\theta$ 的似然函数 $L(\theta|x)$ 等于给定参数 $\theta$ 后变量 $x$ 的概率。
离散： $L(\theta|x)=P(X=x|\theta)$
连续： $L(\theta|x)=f_{\theta}(x)=f(x|\theta)$ , $f(x|\theta)$ 不是条件概率密度函数。

概率描述了已知参数时的随机变量的输出结果。
似然则是用来描述已知随机变量输出结果时，未知参数的可能取值。

在统计学中，似然函数是一种关于统计模型参数的函数，表示模型参数的似然性。

贝叶斯公式
假设随机变量X表示数据，随机变量 $\theta$ 表示模型参数，计算后验概率 $P(\theta,X)$ ：
$P(\theta,X)=\frac{P(\theta)P(X|\theta)}{P(X)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(X,\theta)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(\theta)P(X|\theta)}$

其中 $P(\theta)$ 是先验概率， $P(D|\theta)$ 是似然函数。

贝叶斯统计的估计
$\bullet$ 确定 $\theta$ 的先验分布密度： $P(\theta)$ ;
$\bullet$ 样本独立同分布，且已知样本密度形式 $P(x|\theta)$ , 样本集的联合分布 $P(x|\theta)=\sum_{i=1}^{n}P(x_{i}|\theta)$
$\bullet$ 利用贝叶斯公式求 $\theta$ 后验概率： $P(\theta|x)=\frac{P(x|\theta)P(\theta)}{\int_{\theta}\theta P(\theta|x)d\theta}$
$\bullet$ 求贝叶斯的估计量 $\theta^{*}=\int_{\theta}\theta P(\theta|x)d\theta=\int_{\theta}P_{\theta}(x)d\theta$

模型学习

适用条件是什么？
解决什么问题？
对应的统计学习三要素？

统计学习的三要素：
假设空间：包含所有可能的条件概率分布或决策函数。
策略：按照什么样的准则学习或选择最优模型。（损失函数）
求解算法：使用什么样的计算方法求解最优模型。（求解参数）

在监督学习中，概率模型是生成模型;非概率模型是判别模型。

监督学习的实现步骤

得到一个有限数据集和;
确定模型的的假设空间，即所有的备选模型;
确定模型选择的准则，即学习策略;
实现求解最优化模型的算法;
通过学习方法选择最优模型;
利用学习的最优模型对新数据进行预测或分析。

在这里插入图片描述训练集： $T=\{(x_1,y_1), (x_2,y_2),\ldots,(x_n,y_n)\}$
实例 $x$ 的特征向量： $x=(x^{(1)},x^{(2)},\ldots,x^{(n)})^T$
模型：
7. 决策函数： $Y = f (x)$
预测形式： $y = f (x)$
8. 条件概率分布： $P (Y ∣ X)$
预测形式： $a r g m a x (P (y ∣ x))$