第十周学习笔记

第十周学习笔记

1.阅读《模式识别》(第三版)张学工

第二章 统计决策方法

主要内容
  • 最小错误率贝叶斯决策
  • 最小风险贝叶斯决策
  • 两类错误率、Neyman-Pearson决策与ROC曲线
  • 正态分布时的统计决策
  • 错误率的计算
  • 离散概率模型下的统计决策举例(马尔可夫模型,隐马尔科夫模型)
值得注意的地方
1.为什么最小错误率贝叶斯决策是使后验概率最大的决策?

最小错误率贝叶斯决策是为了最小化
min⁡P(e)=∫p(e∣x)p(x)dx \min P(e)=\int p(e|x)p(x)dx minP(e)=p(ex)p(x)dx

对于某个x,有
p(e∣x)={P(w2∣x)如果决策x∈w1P(w1∣x)如果决策x∈w2p(e|x)= \begin{cases} P(w_2|x)& \text{如果决策x}\in w_1\\ P(w_1|x)& \text{如果决策x}\in w_2 \end{cases}p(ex)={P(w2x)P(w1x)如果决策xw1如果决策xw2

其中p(x)p(x)p(x)可依据全概率公式展开,
直观的理解就是,如果认为xxx属于第一类,那么犯错误的概率就是xxx属于第二类的概率,如果认为xxx属于第二类,那么犯错误的概率就是xxx属于第一类的概率。
所以

最小化积分式
最小化p(e|x)
p(x)是固定的
选择更小的p(w|x)
选择更大的后验概率
2.计算后验概率的时候可以不用计算分母

后验概率的计算法则为

p(wi∣x)=p(x∣wi)p(wi)p(x) p(w_i|x)=\dfrac{p(x|w_i)p(w_i)}{p(x)} p(wix)=p(x)p(xwi)p(wi)

其中p(x)p(x)p(x)可以依据全概率公式展开,由公式可知,右边的分母是不依赖于iii的因此,计算x属于各个类别的后验概率时p(x)p(x)p(x)是相等的,因而,可以只计算分母进行比较即可,事实上p(x)p(x)p(x)只是一个归一因子。

3.灵敏度、特异度、准确率、召回率

灵敏度、特异度、准确率、召回率的计算公式分别为

Sn(灵敏度)=TPTP+FN Sn \text{(灵敏度)}= \dfrac{TP}{TP+FN} Sn(灵敏度)=TP+FNTP

Sp(特异度)=TNTN+FP Sp \text{(特异度)} = \dfrac{TN}{TN+FP} Sp(特异度)=TN+FPTN

P(准确率)=TPTP+FP P \text{(准确率)} = \dfrac{TP}{TP+FP} P(准确率)=TP+FPTP

R(召回率)=TPTP+FN R \text{(召回率)} = \dfrac{TP}{TP+FN} R(召回率)=TP+FNTP

观察公式可知,灵敏度就是召回率,也就是正类样本中被识别成正类的比例,医学角度说就是在所有生病的人中被判断为生病的人数,特异度是负类样本中被识别为负类的比例,而准确率就是判断为正类的样本中,真实为正类的样本所占比例,注意此处的准确率和召回率都是针对正类样本所言,换一个角度,特异度其实也是负类样本的召回率

4.不相关性与独立性

不相关性
E[X1X2]=E[X1]E[X2]E[X_1X_2]=E[X_1]E[X_2]E[X1X2]=E[X1]E[X2]
也可以是
Cov(X1,X2)=0Cov(X_1,X_2)=0Cov(X1,X2)=0
独立性
p(X1X2)=p(X1)p(X2)p(X_1X_2)=p(X_1)p(X_2)p(X1X2)=p(X1)p(X2)

独立⇒\Rightarrow不相关

5.正态分布概率模型下的最小错误贝叶斯决策

当假设各类正态分布的协方差矩阵相等时,实际上就是CS229中的高斯判别分析

6.基于概率模型的模式识别方法与基于数据模式的识别方法

基于概率模型的模式识别方法使用概率模型对各类样本进行建模,进而比较似然比进行决策,而基于数据模式的识别方法直接估计计算数据到模式的映射,分别对应了生成学习方法和判别学习方法。

第三章 概率密度函数估计

主要内容
  • 最大似然函数估计
  • 贝叶斯估计与贝叶斯学习
  • 概率密度估计的的非参数方法
值得注意的地方
1.P48习题:为什么Σ^=1N(xi−μ^)(xi−μ^)T\hat{\Sigma}=\dfrac{1}{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^TΣ^=N1(xiμ^)(xiμ^)T不是无偏估计?

E[Σ^]=1NE[∑i=1N(xi−μ^)(xi−μ^)T]=1NE[∑i=1N(xixiT−μ^xiT−xiμ^T+μ^μ^T)]=1NE[∑i=1N(xixiT−μ^μ^T)]=E[x1x1T−μ^μ^T]=E[x1x1T]−E[μ^μ^T]=D[x1]+E[x1]E[x1]T−(D[μ^]+E[μ^]E[μ^]T)=Σ+μμT−1NΣ−μμT=N−1NΣ \begin{aligned} E[\hat\Sigma]&=\dfrac{1}{N}E[\sum_{i=1}^{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T]\\ &=\dfrac{1}{N}E[\sum_{i=1}^{N}(x_ix_i^T-\hat\mu x_i^T-x_i\hat\mu^T+\hat\mu\hat\mu^T)]\\ &=\dfrac{1}{N}E[\sum_{i=1}^N(x_ix_i^T-\hat\mu\hat\mu^T)]\\ &=E[x_1x_1^T-\hat\mu\hat\mu^T]\\ &=E[x_1x_1^T]-E[\hat\mu\hat\mu^T]\\ &=D[x_1]+E[x_1]E[x_1]^T-(D[\hat\mu]+E[\hat\mu]E[\hat\mu]^T)\\ &=\Sigma+\mu\mu^T-\dfrac{1}{N}\Sigma-\mu\mu^T\\ &=\dfrac{N-1}{N}\Sigma \end{aligned} E[Σ^]=N1E[i=1N(xiμ^)(xiμ^)T]=N1E[i=1N(xixiTμ^xiTxiμ^T+μ^μ^T)]=N1E[i=1N(xixiTμ^μ^T)]=E[x1x1Tμ^μ^T]=E[x1x1T]E[μ^μ^T]=D[x1]+E[x1]E[x1]T(D[μ^]+E[μ^]E[μ^]T)=Σ+μμTN1ΣμμT=NN1Σ
同时可知1N−1E[∑i=1N(xi−μ^)(xi−μ^)T]\dfrac{1}{N-1}E[\sum_{i=1}^{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T]N11E[i=1N(xiμ^)(xiμ^)T]Σ\SigmaΣ的无偏估计

第四章 线性分类器

主要内容
  • 线性判别函数的基本概念
  • Fisher线性判别分析
值得注意的地方
1.P65公式推导

∂JF(w)∂w=2SbwwTSww−2wTSbwSw(wTSww)2=2(m1−m2)(m1−m2)TwwTSww−2wT(m1−m2)(m1−m2)TwSww(wTSww)2=2wT(m1−m2)(m1−m2)wTSww−2wT(m1−m2)wT(m1−m2)Sww(wTSww)2=2wT(m1−m2)wTSww[(m1−m2)+wT(m1−m2)SwwwTSww] \begin{aligned} \dfrac{\partial{J_F(w)}}{\partial{w}}&=\dfrac{2S_bw}{w^TS_ww}-\dfrac{2w^TS_bwSw}{(w^TS_ww)^2}\\ &=\dfrac{2(m_1-m_2)(m_1-m_2)^Tw}{w^TS_ww}-\dfrac{2w^T(m_1-m_2)(m_1-m_2)^TwS_ww}{(w^TS_ww)^2}\\ &=\dfrac{2w^T(m_1-m_2)(m_1-m_2)}{w^TS_ww}-\dfrac{2w^T(m_1-m_2)w^T(m_1-m_2)S_ww}{(w^TS_ww)^2}\\ &=\dfrac{2w^T(m_1-m_2)}{w^TS_ww}\left[(m_1-m_2)+\dfrac{w^T(m_1-m_2)S_ww}{w^TS_ww} \right] \end{aligned} wJF(w)=wTSww2Sbw(wTSww)22wTSbwSw=wTSww2(m1m2)(m1m2)Tw(wTSww)22wT(m1m2)(m1m2)TwSww=wTSww2wT(m1m2)(m1m2)(wTSww)22wT(m1m2)wT(m1m2)Sww=wTSww2wT(m1m2)[(m1m2)+wTSwwwT(m1m2)Sww]
令其等于0,得

w⋆∝Sw−1(m1−m2) w^{\star} \propto S_w^{-1}(m_1-m_2) wSw1(m1m2)

### 吴恩达机器学习课程第十笔记概览 在吴恩达老师的机器学习课程中,第十的内容主要集中在大规模机器学习方面。这一部分探讨了如何处理大数据集以及提高训练效率的方法[^3]。 #### 大规模机器学习的特点 当面对海量的数据,传统的批梯度下降法可能变得低效甚至不可行。为了应对这个问题,在线学习方法被引入到模型训练过程之中。在线学习允许算法随着新样本的到来逐步更新参数,而不是等待整个数据集加载完毕后再做调整[^2]。 #### 随机梯度下降 (SGD) 随机梯度下降是一种用于优化神经网络权重的有效技术。相比于批量梯度下降每次迭代都需要遍历全部训练样本来计算损失函数导数的做法不同的是,SGD仅选取单一样本或少量样本作为估计依据来近似真实梯度方向,从而大大加快收敛速度并减少内存占用量。 ```python import numpy as np def stochastic_gradient_descent(X, y, theta, alpha=0.01, num_iters=1000): m = len(y) for _ in range(num_iters): indices = list(range(m)) np.random.shuffle(indices) for i in indices: xi = X[i:i+1] yi = y[i] error = hypothesis(theta, xi) - yi # Update parameters using only one training example at a time. theta -= alpha * error.T.dot(xi).T return theta ``` #### MapReduce框架下的分布式计算 对于极其庞大的数据集而言,即使采用SGD也可能难以满足实性需求。此可以考虑利用MapReduce这样的分布式计算平台来进行更高效的并行化操作。通过合理分配子任务给集群中的各个节点执行,并最终汇总结果完成全局同步更新,可以在较短间内获得满意的解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值