第十周学习笔记

最新推荐文章于 2023-12-16 18:07:42 发布

原创最新推荐文章于 2023-12-16 18:07:42 发布 · 330 阅读

5 ·

CC 4.0 BY-SA版权

学习笔记专栏收录该内容

61 篇文章

订阅专栏

第十周学习笔记

1.阅读《模式识别》（第三版）张学工

第二章统计决策方法

主要内容

最小错误率贝叶斯决策
最小风险贝叶斯决策
两类错误率、Neyman-Pearson决策与ROC曲线
正态分布时的统计决策
错误率的计算
离散概率模型下的统计决策举例（马尔可夫模型，隐马尔科夫模型）

值得注意的地方

1.为什么最小错误率贝叶斯决策是使后验概率最大的决策？

最小错误率贝叶斯决策是为了最小化
$\min P(e)=\int p(e|x)p(x)dx$

对于某个x，有
$\begin{cases} P(w_2|x)& \text{如果决策x}\in w_1\\ P(w_1|x)& \text{如果决策x}\in w_2 \end{cases}$

其中 $p (x)$ 可依据全概率公式展开，
直观的理解就是，如果认为 $x$ 属于第一类，那么犯错误的概率就是 $x$ 属于第二类的概率，如果认为 $x$ 属于第二类，那么犯错误的概率就是 $x$ 属于第一类的概率。
所以

2.计算后验概率的时候可以不用计算分母

后验概率的计算法则为

$p(w_i|x)=\dfrac{p(x|w_i)p(w_i)}{p(x)}$

其中 $p (x)$ 可以依据全概率公式展开，由公式可知，右边的分母是不依赖于 $i$ 的因此，计算x属于各个类别的后验概率时 $p (x)$ 是相等的，因而，可以只计算分母进行比较即可，事实上 $p (x)$ 只是一个归一因子。

3.灵敏度、特异度、准确率、召回率

灵敏度、特异度、准确率、召回率的计算公式分别为

$\text{(灵敏度)}= \dfrac{TP}{TP+FN}$

$\text{(特异度)} = \dfrac{TN}{TN+FP}$

$\text{(准确率)} = \dfrac{TP}{TP+FP}$

$\text{(召回率)} = \dfrac{TP}{TP+FN}$

观察公式可知，灵敏度就是召回率，也就是正类样本中被识别成正类的比例，医学角度说就是在所有生病的人中被判断为生病的人数，特异度是负类样本中被识别为负类的比例，而准确率就是判断为正类的样本中，真实为正类的样本所占比例，注意此处的准确率和召回率都是针对正类样本所言，换一个角度，特异度其实也是负类样本的召回率。

4.不相关性与独立性

不相关性
$E[X_1X_2]=E[X_1]E[X_2]$
也可以是
$Cov(X_1,X_2)=0$
独立性
$p(X_1X_2)=p(X_1)p(X_2)$

独立 $⇒\Rightarrow$ 不相关

5.正态分布概率模型下的最小错误贝叶斯决策

当假设各类正态分布的协方差矩阵相等时，实际上就是CS229中的高斯判别分析

6.基于概率模型的模式识别方法与基于数据模式的识别方法

基于概率模型的模式识别方法使用概率模型对各类样本进行建模，进而比较似然比进行决策，而基于数据模式的识别方法直接估计计算数据到模式的映射，分别对应了生成学习方法和判别学习方法。

第三章概率密度函数估计

主要内容

最大似然函数估计
贝叶斯估计与贝叶斯学习
概率密度估计的的非参数方法

值得注意的地方

1.P48习题：为什么 $Σ^=1N(xi−μ^)(xi−μ^)T\hat{\Sigma}=\dfrac{1}{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T$ 不是无偏估计？

$E[Σ^]=1NE[∑i=1N(xi−μ^)(xi−μ^)T]=1NE[∑i=1N(xixiT−μ^xiT−xiμ^T+μ^μ^T)]=1NE[∑i=1N(xixiT−μ^μ^T)]=E[x1x1T−μ^μ^T]=E[x1x1T]−E[μ^μ^T]=D[x1]+E[x1]E[x1]T−(D[μ^]+E[μ^]E[μ^]T)=Σ+μμT−1NΣ−μμT=N−1NΣ \begin{aligned} E[\hat\Sigma]&=\dfrac{1}{N}E[\sum_{i=1}^{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T]\\ &=\dfrac{1}{N}E[\sum_{i=1}^{N}(x_ix_i^T-\hat\mu x_i^T-x_i\hat\mu^T+\hat\mu\hat\mu^T)]\\ &=\dfrac{1}{N}E[\sum_{i=1}^N(x_ix_i^T-\hat\mu\hat\mu^T)]\\ &=E[x_1x_1^T-\hat\mu\hat\mu^T]\\ &=E[x_1x_1^T]-E[\hat\mu\hat\mu^T]\\ &=D[x_1]+E[x_1]E[x_1]^T-(D[\hat\mu]+E[\hat\mu]E[\hat\mu]^T)\\ &=\Sigma+\mu\mu^T-\dfrac{1}{N}\Sigma-\mu\mu^T\\ &=\dfrac{N-1}{N}\Sigma \end{aligned}$
同时可知 $1N−1E[∑i=1N(xi−μ^)(xi−μ^)T]\dfrac{1}{N-1}E[\sum_{i=1}^{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T]$ 是 $Σ\Sigma$ 的无偏估计

第四章线性分类器

主要内容

线性判别函数的基本概念
Fisher线性判别分析

值得注意的地方

1.P65公式推导

$\begin{aligned} \dfrac{\partial{J_F(w)}}{\partial{w}}&=\dfrac{2S_bw}{w^TS_ww}-\dfrac{2w^TS_bwSw}{(w^TS_ww)^2}\\ &=\dfrac{2(m_1-m_2)(m_1-m_2)^Tw}{w^TS_ww}-\dfrac{2w^T(m_1-m_2)(m_1-m_2)^TwS_ww}{(w^TS_ww)^2}\\ &=\dfrac{2w^T(m_1-m_2)(m_1-m_2)}{w^TS_ww}-\dfrac{2w^T(m_1-m_2)w^T(m_1-m_2)S_ww}{(w^TS_ww)^2}\\ &=\dfrac{2w^T(m_1-m_2)}{w^TS_ww}\left[(m_1-m_2)+\dfrac{w^T(m_1-m_2)S_ww}{w^TS_ww} \right] \end{aligned}$
令其等于0，得