模式识别
目录
第一章 绪论
第二章 贝叶斯决策理论
第三章 概率密度函数的参数估计
第四章 非参数判别分类方法
第五章 聚类分析
第六章 特征提取与选择
- 本系列博客包含2,3,4,5,6章的内容
引言
这是我期末复习时候整理的笔记。我会把每一章单独发一篇博客,都搞到一起无法发布,提示字数太多没办法了。
- 教材:模式识别及MATLAB实现
- ISBN:
978-7-121-32127-6
第三章 概率密度函数的参数估计
题目1
设样本 X 1 , X 2 , … , X N X_1, X_2, \ldots, X_N X1,X2,…,XN 是来自 p ( X ∣ θ ) p(X|\theta) p(X∣θ) 的随机样本,其中 0 ≤ x ≤ θ 0 \leq x \leq \theta 0≤x≤θ 时, p ( X ∣ θ ) = 1 θ p(X|\theta) = \frac{1}{\theta} p(X∣θ)=θ1,否则为 0。证明 θ \theta θ 的最大似然估计是 max X k \max X_k maxXk。
解析
1. 写出似然函数
设样本 X 1 , X 2 , … , X N X_1, X_2, \ldots, X_N X1,X2,…,XN 相互独立且服从 p ( X ∣ θ ) p(X|\theta) p(X∣θ) 的分布,其联合概率密度函数(即似然函数)为:
L ( θ ) = ∏ k = 1 N p ( X k ∣ θ ) L(\theta) = \prod_{k=1}^N p(X_k|\theta) L(θ)=k=1∏Np(Xk∣θ)
由于 p ( X ∣ θ ) = 1 θ p(X|\theta) = \frac{1}{\theta} p(X∣θ)=θ1 当 0 ≤ X ≤ θ 0 \leq X \leq \theta 0≤X≤θ,否则为 0,因此联合似然函数可以写为:
L ( θ ) = { 1 θ N , if θ ≥ max ( X 1 , X 2 , … , X N ) , 0 , otherwise . L(\theta) = \begin{cases} \frac{1}{\theta^N}, & \text{if } \theta \geq \max(X_1, X_2, \ldots, X_N), \\ 0, & \text{otherwise}. \end{cases} L(θ)={θN1,0,if θ≥max(X1,X2,…,XN),otherwise.
2. 条件分析
由上式可见,似然函数 L ( θ ) L(\theta) L(θ) 在 θ < max ( X 1 , X 2 , … , X N ) \theta < \max(X_1, X_2, \ldots, X_N) θ<max(X1,X2,…,XN) 时为 0,而在 θ ≥ max ( X 1 , X 2 , … , X N ) \theta \geq \max(X_1, X_2, \ldots, X_N) θ≥max(X1,X2,…,XN) 时为 1 θ N \frac{1}{\theta^N} θN1,这是一个随着 θ \theta θ 增加而单调递减的函数。因此,为了最大化 L ( θ ) L(\theta) L(θ), θ \theta θ 应取最小值,同时满足:
θ ≥ max ( X 1 , X 2 , … , X N ) . \theta \geq \max(X_1, X_2, \ldots, X_N). θ≥max(X1,X2,…,XN).
3. 最大似然估计
根据以上分析,最大化似然函数时,最优的 θ \theta θ 值应为:
θ ^ = max ( X 1 , X 2 , … , X N ) . \hat{\theta} = \max(X_1, X_2, \ldots, X_N). θ^=max(X1,X2,…,XN).
此时,似然函数达到最大值:
L ( θ ^ ) = 1 θ ^ N . L(\hat{\theta}) = \frac{1}{\hat{\theta}^N}. L(θ^)=θ^N1.
重要概念概述
-
最大似然估计(MLE)
最大似然估计是统计学中用来估计模型参数的一种方法,通过选择能够最大化样本数据似然函数的参数值来完成估计。 -
指示函数
在似然函数中,条件 0 ≤ X ≤ θ 0 \leq X \leq \theta 0≤X≤θ 是通过指示函数 I ( 0 ≤ X ≤ θ ) I(0 \leq X \leq \theta) I(0≤X≤θ) 实现的,该函数在满足条件时为 1,否则为 0。 -
单调性
对于 θ ≥ max ( X 1 , X 2 , … , X N ) \theta \geq \max(X_1, X_2, \ldots, X_N) θ≥max(X1,X2,…,XN),似然函数 L ( θ ) = 1 θ N L(\theta) = \frac{1}{\theta^N} L(θ)=θN1 是单调递减的,这使得 θ \theta θ 的最大似然估计是条件边界上的最小值。
结论
由以上分析可知, θ \theta θ 的最大似然估计为样本中的最大值:
θ ^ = max ( X 1 , X 2 , … , X N ) . \hat{\theta} = \max(X_1, X_2, \ldots, X_N). θ^=max(X1,X2,…,XN).
题目2
设总体 X X X 的概率密度函数为 f ( X , θ ) = ( θ a ) X a − 1 e − θ X a f(X, \theta) = \left(\frac{\theta}{a}\right) X^{a-1} e^{-\theta X^a} f(X,θ)=(aθ)Xa−1e−θXa,求参数 θ \theta θ 的最大似然估计。
解析
为了求参数 θ \theta θ 的最大似然估计,我们需要通过以下步骤进行推导:
-
似然函数:首先,写出似然函数 L ( θ ) L(\theta) L(θ),它是样本 X 1 , X 2 , … , X N X_1, X_2, \ldots, X_N X1,X2,…,XN 的联合概率密度函数。
- 由于样本是独立同分布的,似然函数为:
L ( θ ) = ∏ i = 1 N f ( X i , θ ) L(\theta) = \prod_{i=1}^N f(X_i, \theta) L(θ)=i=1∏Nf(Xi,θ) - 根据题目条件, f ( X i , θ ) = ( θ a ) X i a − 1 e − θ X i a f(X_i, \theta) = \left(\frac{\theta}{a}\right) X_i^{a-1} e^{-\theta X_i^a} f(Xi,θ)=(aθ)Xia−1e−θXia。
- 由于样本是独立同分布的,似然函数为:
-
似然函数的表达式:
- 将每个样本的概率密度函数代入,得到:
L ( θ ) = ( θ a ) N ∏ i = 1 N X i a − 1 e − θ ∑ i = 1 N X i a L(\theta) = \left(\frac{\theta}{a}\right)^N \prod_{i=1}^N X_i^{a-1} e^{-\theta \sum_{i=1}^N X_i^a} L(θ)=(aθ)Ni=1∏NXia−1e−θ∑i=1NXia
- 将每个样本的概率密度函数代入,得到:
-
对数似然函数:为了简化计算,取对数似然函数 l ( θ ) l(\theta) l(θ):
l ( θ ) = ln L ( θ ) = N ln ( θ a ) + ( a − 1 ) ∑ i = 1 N ln X i − θ ∑ i = 1 N X i a l(\theta) = \ln L(\theta) = N \ln \left(\frac{\theta}{a}\right) + (a-1) \sum_{i=1}^N \ln X_i - \theta \sum_{i=1}^N X_i^a l(θ)=lnL(θ)=Nln(aθ)+(a−1)i=1∑NlnXi−θi=1∑NXia -
求导并求解:对 l ( θ ) l(\theta) l(θ) 关于 θ \theta θ 求导,并令其等于 0:
d l ( θ ) d θ = N θ − ∑ i = 1 N X i a = 0 \frac{d l(\theta)}{d \theta} = \frac{N}{\theta} - \sum_{i=1}^N X_i^a = 0 dθdl(θ)=θN−i=1∑NXia=0- 解这个方程得到:
θ = N ∑ i = 1 N X i a \theta = \frac{N}{\sum_{i=1}^N X_i^a} θ=∑i=1NXiaN
- 解这个方程得到:
重要概念概述
- 似然函数:在给定参数 θ \theta θ 下,样本 X 1 , X 2 , … , X N X_1, X_2, \ldots, X_N X1,X2,…,XN 的联合概率密度函数。
- 对数似然函数:似然函数的自然对数,通常用于简化计算。
- 最大似然估计:使得似然函数 L ( θ ) L(\theta) L(θ) 最大的 θ \theta θ 值。
通过上述推导,我们得到了参数 θ \theta θ 的最大似然估计为 θ = N ∑ i = 1 N X i a \theta = \frac{N}{\sum_{i=1}^N X_i^a} θ=∑i=1NXiaN。
题目3
设总体分布密度为 N ( μ , 1 ) N(\mu, 1) N(μ,1), − ∞ < μ < + ∞ -\infty < \mu < +\infty −∞<μ<+∞,并设 X = { X 1 , X 2 , … , X N } X = \{X_1, X_2, \ldots, X_N\} X={X1,X2,…,XN},分别利用最大似然估计和贝叶斯估计算 β \beta β,已知 μ \mu μ的先验分布 p ( μ ) ∼ N ( 0 , 1 ) p(\mu) \sim N(0, 1) p(μ)∼N(0,1)。
解析
-
最大似然估计(MLE):
- 总体分布密度为 N ( μ , 1 ) N(\mu, 1) N(μ,1),即 X i ∼ N ( μ , 1 ) X_i \sim N(\mu, 1) Xi∼N(μ,1)。
- 似然函数为:
L ( μ ; X ) = ∏ i = 1 N 1 2 π exp ( − ( X i − μ ) 2 2 ) L(\mu; X) = \prod_{i=1}^N \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{(X_i - \mu)^2}{2}\right) L(μ;X)=i=1∏N2π1exp(−2(Xi−μ)2) - 取对数似然函数:
ln L ( μ ; X ) = − N 2 ln ( 2 π ) − ∑ i = 1 N ( X i − μ ) 2 2 \ln L(\mu; X) = -\frac{N}{2} \ln(2\pi) - \sum_{i=1}^N \frac{(X_i - \mu)^2}{2} lnL(μ;X)=−2Nln(2π)−i=1∑N2(Xi−μ)2 - 对
μ
\mu
μ求导并令其为0:
d d μ ln L ( μ ; X ) = ∑ i = 1 N ( X i − μ ) = 0 \frac{d}{d\mu} \ln L(\mu; X) = \sum_{i=1}^N (X_i - \mu) = 0 dμdlnL(μ;X)=i=1∑N(Xi−μ)=0 - 解得:
μ ^ MLE = 1 N ∑ i = 1 N X i \hat{\mu}_{\text{MLE}} = \frac{1}{N} \sum_{i=1}^N X_i μ^MLE=N1i=1∑NXi
-
贝叶斯估计:
- 先验分布 p ( μ ) ∼ N ( 0 , 1 ) p(\mu) \sim N(0, 1) p(μ)∼N(0,1),即 μ ∼ N ( 0 , 1 ) \mu \sim N(0, 1) μ∼N(0,1)。
- 后验分布为:
p ( μ ∣ X ) ∝ p ( X ∣ μ ) p ( μ ) p(\mu | X) \propto p(X | \mu) p(\mu) p(μ∣X)∝p(X∣μ)p(μ) - 由于
p
(
X
∣
μ
)
∼
N
(
μ
,
1
)
p(X | \mu) \sim N(\mu, 1)
p(X∣μ)∼N(μ,1),先验
p
(
μ
)
∼
N
(
0
,
1
)
p(\mu) \sim N(0, 1)
p(μ)∼N(0,1),后验分布为:
p ( μ ∣ X ) ∼ N ( ∑ i = 1 N X i N + 1 , 1 N + 1 ) p(\mu | X) \sim N\left(\frac{\sum_{i=1}^N X_i}{N+1}, \frac{1}{N+1}\right) p(μ∣X)∼N(N+1∑i=1NXi,N+11) - 贝叶斯估计为后验分布的均值:
μ ^ Bayes = ∑ i = 1 N X i N + 1 \hat{\mu}_{\text{Bayes}} = \frac{\sum_{i=1}^N X_i}{N+1} μ^Bayes=N+1∑i=1NXi
重要概念
- 最大似然估计(MLE):通过最大化似然函数来估计参数,适用于参数的点估计。
- 贝叶斯估计:结合先验信息和样本信息,通过后验分布来估计参数,适用于参数的分布估计。
- 正态分布(Normal Distribution):一种常见的连续概率分布,具有均值和方差两个参数。
题目4
在掷硬币的游戏实验中,正面出现的概率是 q q q,反面出现的概率是 1 − q 1-q 1−q。设 X i , i = 1 , 2 , . . . , N X_{i}, i=1,2, ..., N Xi,i=1,2,...,N 是这个实验的结果, X i ∈ ( 0 , 1 ) X_{i} \in (0,1) Xi∈(0,1)。
(1) 证明的最大似然估计是 q M L = 1 N ∑ i = 1 N X i q_{ML} = \frac{1}{N} \sum_{i=1}^{N} X_{i} qML=N1∑i=1NXi。
(2) 证明最大似然估计结果是下列方程的解:
q ∑ i X i ( 1 − q ) N − ∑ i X i ( ∑ i X i q − N − ∑ i X i 1 − q ) = 0 q^{\sum_{i} X_{i}} (1 - q)^{N-\sum_{i} X_{i}} \left( \frac{\sum_{i} X_{i}}{q} - \frac{N - \sum_{i} X_{i}}{1 - q} \right) = 0 q∑iXi(1−q)N−∑iXi(q∑iXi−1−qN−∑iXi)=0
解析
-
最大似然估计(MLE):
- 设 X i X_i Xi 是独立同分布的伯努利随机变量, X i ∼ Bernoulli ( q ) X_i \sim \text{Bernoulli}(q) Xi∼Bernoulli(q),即 P ( X i = 1 ) = q P(X_i = 1) = q P(Xi=1)=q, P ( X i = 0 ) = 1 − q P(X_i = 0) = 1 - q P(Xi=0)=1−q。
- 似然函数为:
L ( q ; X ) = ∏ i = 1 N q X i ( 1 − q ) 1 − X i L(q; X) = \prod_{i=1}^N q^{X_i} (1 - q)^{1 - X_i} L(q;X)=i=1∏NqXi(1−q)1−Xi - 取对数似然函数:
ln L ( q ; X ) = ∑ i = 1 N ( X i ln q + ( 1 − X i ) ln ( 1 − q ) ) \ln L(q; X) = \sum_{i=1}^N \left( X_i \ln q + (1 - X_i) \ln (1 - q) \right) lnL(q;X)=i=1∑N(Xilnq+(1−Xi)ln(1−q)) - 对
q
q
q 求导并令其为0:
d d q ln L ( q ; X ) = ∑ i = 1 N ( X i q − 1 − X i 1 − q ) = 0 \frac{d}{dq} \ln L(q; X) = \sum_{i=1}^N \left( \frac{X_i}{q} - \frac{1 - X_i}{1 - q} \right) = 0 dqdlnL(q;X)=i=1∑N(qXi−1−q1−Xi)=0 - 解得:
∑ i = 1 N X i q = N − ∑ i = 1 N X i 1 − q \frac{\sum_{i=1}^N X_i}{q} = \frac{N - \sum_{i=1}^N X_i}{1 - q} q∑i=1NXi=1−qN−∑i=1NXi - 进一步简化:
∑ i = 1 N X i ( 1 − q ) = q ( N − ∑ i = 1 N X i ) \sum_{i=1}^N X_i (1 - q) = q (N - \sum_{i=1}^N X_i) i=1∑NXi(1−q)=q(N−i=1∑NXi)
∑ i = 1 N X i − q ∑ i = 1 N X i = q N − q ∑ i = 1 N X i \sum_{i=1}^N X_i - q \sum_{i=1}^N X_i = q N - q \sum_{i=1}^N X_i i=1∑NXi−qi=1∑NXi=qN−qi=1∑NXi
∑ i = 1 N X i = q N \sum_{i=1}^N X_i = q N i=1∑NXi=qN
q = ∑ i = 1 N X i N q = \frac{\sum_{i=1}^N X_i}{N} q=N∑i=1NXi - 因此,最大似然估计为:
q M L = 1 N ∑ i = 1 N X i q_{ML} = \frac{1}{N} \sum_{i=1}^{N} X_{i} qML=N1i=1∑NXi
-
方程的解:
- 从上面的推导可知,最大似然估计
q
M
L
q_{ML}
qML 满足:
q = ∑ i = 1 N X i N q = \frac{\sum_{i=1}^N X_i}{N} q=N∑i=1NXi - 将
q
=
∑
i
=
1
N
X
i
N
q = \frac{\sum_{i=1}^N X_i}{N}
q=N∑i=1NXi 代入方程:
q ∑ i X i ( 1 − q ) N − ∑ i X i ( ∑ i X i q − N − ∑ i X i 1 − q ) = 0 q^{\sum_{i} X_{i}} (1 - q)^{N-\sum_{i} X_{i}} \left( \frac{\sum_{i} X_{i}}{q} - \frac{N - \sum_{i} X_{i}}{1 - q} \right) = 0 q∑iXi(1−q)N−∑iXi(q∑iXi−1−qN−∑iXi)=0 - 由于
q
=
∑
i
=
1
N
X
i
N
q = \frac{\sum_{i=1}^N X_i}{N}
q=N∑i=1NXi,则:
∑ i X i q = N \frac{\sum_{i} X_{i}}{q} = N q∑iXi=N
N − ∑ i X i 1 − q = N \frac{N - \sum_{i} X_{i}}{1 - q} = N 1−qN−∑iXi=N - 因此,方程变为:
q ∑ i X i ( 1 − q ) N − ∑ i X i ( N − N ) = 0 q^{\sum_{i} X_{i}} (1 - q)^{N-\sum_{i} X_{i}} \left( N - N \right) = 0 q∑iXi(1−q)N−∑iXi(N−N)=0 - 显然,方程成立。
- 从上面的推导可知,最大似然估计
q
M
L
q_{ML}
qML 满足:
重要概念
- 最大似然估计(MLE):通过最大化似然函数来估计参数,适用于参数的点估计。
- 伯努利分布(Bernoulli Distribution):一种离散概率分布,适用于只有两种可能结果的随机试验。
- 似然函数:在给定参数下,观测数据的联合概率密度函数。