Ch3 参数估计-最大似然和贝叶斯参数估计
文章目录
基本概念
贝叶斯分类器: 已知类先验概率 P ( w j ) P(w_j) P(wj)和类条件概率密度 p ( x ∣ w j ) p(\mathbf{x}\vert w_j) p(x∣wj),按某决策规则确定判别函数和决策面。
但类先验概率和类条件概率密度在实际中往往是未知的。
因此,我们要换一种处理问题的方式:“从样本出发来设计分类器”。根据设计方法,可以将分类器分为两类:
- 估计类先验概率和类条件概率密度函数(产生式方法)
- 直接估计类后验概率或判别函数(判别式方法)
参数估计 | 非参数估计 |
---|---|
样本所属的类条件概率密度函数的形式已知,而概率密度函数的参数是未知的。 | 样本所属的类条件概率密度函数的形式和参数都是未知的。 |
目标是由已知类别的样本集估计概率密度函数的参数。 | 目标是由已知类别的样本集估计类条件概率密度函数本身。 |
例如,知道样本所属总体为正态分布,而正态分布的参数未知 p ( x ∣ μ , σ ) = 1 2 π σ exp ( − 1 2 ( x − μ σ ) 2 ) p(\mathbf{x}\vert\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\left(\frac{\mathbf{x}-\mu}{\sigma}\right)^2\right) p(x∣μ,σ)=2πσ1exp(−21(σx−μ)2) | — |
基本概念 | 说明 | 例子 |
---|---|---|
统计量 | 样本中包含总体的信息,我们希望通过样本集将有关信息估计出来。根据不同要求构造出有关样本的某种函数,在统计学中称为统计量 d ( x 1 , x 2 , … , x n ) d(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n) d(x1,x2,…,xn)。 | $\mu=\frac{1}{n}\sum_{i = 1}^{n}\mathbf \mathbf{x}_i $ |
参数空间 | 将未知待估计参数记为 θ \theta θ,参数 θ \theta θ的全部允许取值集合构成参数空间,记为 Θ \Theta Θ。 | — |
点估计 | 点估计问题就是构造一个统计量 d ( x 1 , x 2 , … , x n ) d(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n) d(x1,x2,…,xn)作为参数 θ \theta θ的估计 θ ^ \hat{\theta} θ^。 | 常用的均值估计: $\hat{\mu}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf \mathbf{x}_i $ |
区间估计 | 与点估计不同,区间估计要求采用 ( d 1 , d 2 ) (d_1,d_2) (d1,d2)作为参数 θ \theta θ可能取值范围的一种估计。这个区间称为置信区间。这类估计问题称为区间估计。 | — |
最大似然估计
基本假设
- 独立同分布假设:每类样本均是从类条件概率密度 p ( x ∣ w j ) p(x\vert w_j) p(x∣wj)中独立抽取出来的。
- p ( x ∣ w j ) p(x\vert w_j) p(x∣wj)具有确定的函数形式,只是其中的参数 θ \theta θ未知:
- 比如,当 x \mathbf x x服从一维正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),未知的参数为 θ = [ μ , σ ] T \theta = [\mu,\sigma]^T θ=[μ,σ]T,为一个二维向量。
- 各类样本只包含本类的分布信息:即不同类别的参数是独立的。可以分别处理 c c c个独立问题。
基本原理
已知随机抽取的 n n n个样本(观测值),最合理的参数估计应该是使得从该模型中能抽取这 n n n个样本的概率最大。
直观想法:一个随机试验如有若干个可能的结果:A,B,C,…。若仅作一次试验,结果A出现,则认为试验条件(模型参数)对A出现有利,也即A出现的概率很大。
一般地,事件A发生的概率与参数 θ \theta θ相关,A发生的概率记为 P ( A ∣ θ ) P(A\vert \theta) P(A∣θ),则 θ \theta θ的估计应该使上述概率达到最大,这样的 θ \theta θ估计意义称为极大似然估计。
设样本集包含 n n n个样本 D = { x 1 , x 2 , ⋯ , x n } D = \{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\} D={
x1,x2,⋯,xn},这些样本是从概率密度函数 p ( x ∣ θ ) p(x\vert \theta) p(x∣θ)中独立抽取的,则获得 n n n个样本的联合概率为:
l ( θ ) = P ( D ∣ θ ) = P ( x 1 , x 2 , ⋯ , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) l(\theta)=P(D|\theta)=P(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n|\theta)=\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta) l(θ)=P(D∣θ)=P(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)
l ( θ ) l(\theta) l(θ)是 θ \theta θ的函数,描述了在不同参数取值下取得当前样本集的可能性。
l ( θ ) l(\theta) l(θ)被称为参数 θ \theta θ相对于样本集 D D D的似然函数: 似然函数给出了从总体中抽出 x 1 , x 2 , ⋯ , x n \mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n x1,x2,⋯,xn这 n n n个样本的概率。
方法描述
令 l ( θ ) l(\theta) l(θ)为样本集 D D D的似然函数, D = x 1 , x 2 , ⋯ , x n D = {\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n} D=x1,x2,⋯,xn。
如果 θ \theta θ是参数空间 Θ \Theta Θ中能使 l ( θ ) l(\theta) l(θ)极大化的 θ \theta θ值,那么 θ \theta θ就是 θ \theta θ的最大似然估计量,即 θ ^ = arg max θ ∈ Θ l ( θ ) \hat{\theta}=\arg\