概率
先验概率:根据以前的经验,提前知道的事件概率;如:今天下雨的概率;
后验概率:由果及因,后知后觉,概率时间的结果推测原因起作用的概率;如,今天下雨,求有乌云的概率;
似然概率:由因及果,似然likehood自然的推测,都是知道原因,求原因造成结果发生的概率。如:今天阴天,求下雨的概率。
基本概率公式
加法规则: P(x)=∑yP(x,y)P(x)=\sum_{y}{P(x,y)}P(x)=∑yP(x,y)
乘法规则: P(x,y)=P(x)P(y∣x)P(x,y)=P(x)P(y|x)P(x,y)=P(x)P(y∣x)
全概率公式:P(B)=∑i=1nP(Ai)P(B∣Ai)P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i})P(B)=∑i=1nP(Ai)P(B∣Ai)
似然函数
似然函数是一种关于统计模型参数的函数。给定输出时,关于参数θ\thetaθ的似然函数L(θ∣x)L(\theta|x)L(θ∣x)等于给定参数θ\thetaθ后变量xxx的概率。
离散: L(θ∣x)=P(X=x∣θ)L(\theta|x)=P(X=x|\theta)L(θ∣x)=P(X=x∣θ)
连续: L(θ∣x)=fθ(x)=f(x∣θ)L(\theta|x)=f_{\theta}(x)=f(x|\theta)L(θ∣x)=fθ(x)=f(x∣θ), f(x∣θ)f(x|\theta)f(x∣θ)不是条件概率密度函数。
概率描述了已知参数时的随机变量的输出结果。
似然则是用来描述已知随机变量输出结果时,未知参数的可能取值。
在统计学中,似然函数是一种关于统计模型参数的函数,表示模型参数的似然性。
贝叶斯公式
假设随机变量X表示数据,随机变量θ\thetaθ表示模型参数,计算后验概率P(θ,X)P(\theta,X)P(θ,X):
P(θ,X)=P(θ)P(X∣θ)P(X)=P(θ)P(X∣θ)∑θP(X,θ)=P(θ)P(X∣θ)∑θP(θ)P(X∣θ)P(\theta,X)=\frac{P(\theta)P(X|\theta)}{P(X)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(X,\theta)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(\theta)P(X|\theta)}P(θ,X)=P(X)P(θ)P(X∣θ)=∑θP(X,θ)P(θ)P(X∣θ)=∑θP(θ)P(X∣θ)P(θ)P(X∣θ)
其中P(θ)P(\theta)P(θ)是先验概率,P(D∣θ)P(D|\theta)P(D∣θ)是似然函数。
贝叶斯统计的估计
∙\bullet∙ 确定θ\thetaθ的先验分布密度: P(θ)P(\theta)P(θ);
∙\bullet∙ 样本独立同分布,且已知样本密度形式P(x∣θ)P(x|\theta)P(x∣θ), 样本集的联合分布P(x∣θ)=∑i=1nP(xi∣θ)P(x|\theta)=\sum_{i=1}^{n}P(x_{i}|\theta)P(x∣θ)=∑i=1nP(xi∣θ)
∙\bullet∙ 利用贝叶斯公式求θ\thetaθ后验概率:P(θ∣x)=P(x∣θ)P(θ)∫θθP(θ∣x)dθP(\theta|x)=\frac{P(x|\theta)P(\theta)}{\int_{\theta}\theta P(\theta|x)d\theta}P(θ∣x)=∫θθP(θ∣x)dθP(x∣θ)P(θ)
∙\bullet∙ 求贝叶斯的估计量 θ∗=∫θθP(θ∣x)dθ=∫θPθ(x)dθ\theta^{*}=\int_{\theta}\theta P(\theta|x)d\theta=\int_{\theta}P_{\theta}(x)d\thetaθ∗=∫θθP(θ∣x)dθ=∫θPθ(x)dθ
模型学习
- 适用条件是什么?
- 解决什么问题?
- 对应的统计学习三要素?
统计学习的三要素:
假设空间:包含所有可能的条件概率分布或决策函数。
策略:按照什么样的准则学习或选择最优模型。(损失函数)
求解算法:使用什么样的计算方法求解最优模型。(求解参数)
在监督学习中,概率模型是生成模型;非概率模型是判别模型。
监督学习的实现步骤
- 得到一个有限数据集和;
- 确定模型的的假设空间,即所有的备选模型;
- 确定模型选择的准则,即学习策略;
- 实现求解最优化模型的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对新数据进行预测或分析。
训练集:T={(x1,y1),(x2,y2),…,(xn,yn)}T=\{(x_1,y_1), (x_2,y_2),\ldots,(x_n,y_n)\}T={(x1,y1),(x2,y2),…,(xn,yn)}
实例xxx的特征向量:x=(x(1),x(2),…,x(n))Tx=(x^{(1)},x^{(2)},\ldots,x^{(n)})^Tx=(x(1),x(2),…,x(n))T
模型:
7. 决策函数: Y=f(x)Y=f(x)Y=f(x)
预测形式: y=f(x)y=f(x)y=f(x)
8. 条件概率分布:P(Y∣X)P(Y|X)P(Y∣X)
预测形式:argmax(P(y∣x))argmax(P(y|x))argmax(P(y∣x))
2372

被折叠的 条评论
为什么被折叠?



