模式识别-Ch3-极大似然估计

Ch3 参数估计-最大似然和贝叶斯参数估计

基本概念

贝叶斯分类器: 已知类先验概率 P ( w j ) P(w_j) P(wj)和类条件概率密度 p ( x ∣ w j ) p(\mathbf{x}\vert w_j) p(xwj),按某决策规则确定判别函数和决策面。

但类先验概率和类条件概率密度在实际中往往是未知的。

因此,我们要换一种处理问题的方式:“从样本出发来设计分类器”。根据设计方法,可以将分类器分为两类:

  • 估计类先验概率和类条件概率密度函数(产生式方法)
  • 直接估计类后验概率或判别函数(判别式方法)
参数估计 非参数估计
样本所属的类条件概率密度函数的形式已知,而概率密度函数的参数是未知的。 样本所属的类条件概率密度函数的形式和参数都是未知的。
目标是由已知类别的样本集估计概率密度函数的参数。 目标是由已知类别的样本集估计类条件概率密度函数本身。
例如,知道样本所属总体为正态分布,而正态分布的参数未知 p ( x ∣ μ , σ ) = 1 2 π σ exp ⁡ ( − 1 2 ( x − μ σ ) 2 ) p(\mathbf{x}\vert\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\left(\frac{\mathbf{x}-\mu}{\sigma}\right)^2\right) p(xμ,σ)=2π σ1exp(21(σxμ)2)
基本概念 说明 例子
统计量 样本中包含总体的信息,我们希望通过样本集将有关信息估计出来。根据不同要求构造出有关样本的某种函数,在统计学中称为统计量 d ( x 1 , x 2 , … , x n ) d(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n) d(x1,x2,,xn) $\mu=\frac{1}{n}\sum_{i = 1}^{n}\mathbf \mathbf{x}_i $
参数空间 将未知待估计参数记为 θ \theta θ,参数 θ \theta θ的全部允许取值集合构成参数空间,记为 Θ \Theta Θ
点估计 点估计问题就是构造一个统计量 d ( x 1 , x 2 , … , x n ) d(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n) d(x1,x2,,xn)作为参数 θ \theta θ的估计 θ ^ \hat{\theta} θ^ 常用的均值估计: $\hat{\mu}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf \mathbf{x}_i $
区间估计 与点估计不同,区间估计要求采用 ( d 1 , d 2 ) (d_1,d_2) (d1,d2)作为参数 θ \theta θ可能取值范围的一种估计。这个区间称为置信区间。这类估计问题称为区间估计。

最大似然估计

基本假设

  1. 独立同分布假设:每类样本均是从类条件概率密度 p ( x ∣ w j ) p(x\vert w_j) p(xwj)中独立抽取出来的。
  2. p ( x ∣ w j ) p(x\vert w_j) p(xwj)具有确定的函数形式,只是其中的参数 θ \theta θ未知:
  • 比如,当 x \mathbf x x服从一维正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),未知的参数为 θ = [ μ , σ ] T \theta = [\mu,\sigma]^T θ=[μ,σ]T,为一个二维向量。
  1. 各类样本只包含本类的分布信息:即不同类别的参数是独立的。可以分别处理 c c c个独立问题。

基本原理

已知随机抽取的 n n n个样本(观测值),最合理的参数估计应该是使得从该模型中能抽取这 n n n个样本的概率最大。

直观想法:一个随机试验如有若干个可能的结果:A,B,C,…。若仅作一次试验,结果A出现,则认为试验条件(模型参数)对A出现有利,也即A出现的概率很大。

一般地,事件A发生的概率与参数 θ \theta θ相关,A发生的概率记为 P ( A ∣ θ ) P(A\vert \theta) P(Aθ),则 θ \theta θ的估计应该使上述概率达到最大,这样的 θ \theta θ估计意义称为极大似然估计

设样本集包含 n n n个样本 D = { x 1 , x 2 , ⋯   , x n } D = \{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\} D={ x1,x2,,xn},这些样本是从概率密度函数 p ( x ∣ θ ) p(x\vert \theta) p(xθ)中独立抽取的,则获得 n n n个样本的联合概率为:
l ( θ ) = P ( D ∣ θ ) = P ( x 1 , x 2 , ⋯   , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) l(\theta)=P(D|\theta)=P(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n|\theta)=\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta) l(θ)=P(Dθ)=P(x1,x2,,xnθ)=i=1np(xiθ)
l ( θ ) l(\theta) l(θ) θ \theta θ的函数,描述了在不同参数取值下取得当前样本集的可能性。

l ( θ ) l(\theta) l(θ)被称为参数 θ \theta θ相对于样本集 D D D的似然函数: 似然函数给出了从总体中抽出 x 1 , x 2 , ⋯   , x n \mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n x1,x2,,xn n n n个样本的概率。

方法描述

l ( θ ) l(\theta) l(θ)为样本集 D D D的似然函数, D = x 1 , x 2 , ⋯   , x n D = {\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n} D=x1,x2,,xn

如果 θ \theta θ是参数空间 Θ \Theta Θ中能使 l ( θ ) l(\theta) l(θ)极大化的 θ \theta θ值,那么 θ \theta θ就是 θ \theta θ的最大似然估计量,即 θ ^ = arg ⁡ max ⁡ θ ∈ Θ l ( θ ) \hat{\theta}=\arg\

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值