【杂记】机器学习

1、PMF PDF


概率质量函数(probability mass function,pmf)是一个描述离散型随机变量在各特定取值上的概率的函数f ( X = x ) f(X = x)f(X=x)。
概率密度函数(probability density function,pdf)是一个描述连续型随机变量在各特定取值上的概率的函数f ( X = x ) f(X = x)f(X=x)。

2、机器学习分类

分为监督学习、半监督学习、无监督学习和强化学习。

3、KNN算法有三要素

1.K值选择;2.距离选择;3.分类规则选择

4、超参数k

K值过小:

优点:复杂的数据集,K值较小可能会提供更详细的决策边界,因为模型更加灵活。

缺点:容易受到局部结构的影响,模型受噪声和异常值的影响更大。

k值过大:

优点:考虑了更多的全局信息,对于平滑的数据集,较大的K值可以提供更稳定的决策边界。

缺点:对于复杂的数据集,较大的K值可能会导致模型过于简单,无法准确捕获数据的局部特征。

5、决策边界

定义:

决策边界是分类算法中用于区分不同类别的虚拟边界,通俗讲就是在什么范围内归为当前类。

边界效果:

决策边界是否合理,直接影响到分类效果的好坏。

KNN与决策边界:

KNN算法通过计算待分类样本与已知样本之间的距离,找到最近的K个样本,并根据这些样本的类型信息进行投票,以确定待分类样本的类别。

如何绘制决策边界:

本文中为了绘制出决策边界,每隔距离x取一个点(预测数据点),预测的数据点是二维坐标中所有的点。

6、既然离散的二项分布,当n特别大的时候,图像是接近于正态分布,为什么在推导正态分布图像的概率密度函数时不能用二项分布的推导式推出?还是说这是因为二项分布表达式只能表示离散概率分布,所以正态分布只能通过拟合实现?如果二项分布中n->∞求极限是否能推出?

这个问题涉及到概率论中的两个重要分布:二项分布和正态分布,以及它们之间的关系。

首先,二项分布是离散分布,它描述了在固定次数的独立试验中,成功次数的概率分布。其概率质量函数(PMF)是离散的,即只能取整数值。

正态分布,或高斯分布,是连续分布,其概率密度函数(PDF)可以取任意实数值。正态分布广泛应用于许多自然现象和社会现象的建模。

当二项分布的试验次数n非常大,且成功的概率p不是太小也不是太大时,二项分布的形状开始趋近于正态分布。这是因为中心极限定理的作用,该定理指出,在一定条件下,独立同分布的随机变量的和趋近于正态分布。

然而,尽管二项分布在n很大时趋近于正态分布,但不能直接通过二项分布的推导式来得出正态分布的概率密度函数。原因如下:

  1. 离散与连续的区别:二项分布是离散的,其PMF给出的是成功次数的确切概率。而正态分布是连续的,其PDF给出的是某一范围内的概率密度,而不是确切概率。因此,两者的数学形式有本质区别。
  2. 极限过程:虽然当n→∞时,二项分布趋近于正态分布,但这个极限过程在数学上并不简单。直接对二项分布的PMF取极限并不能直接得到正态分布的PDF,因为离散到连续的转换涉及复杂的数学处理。
  3. 推导方法:正态分布的PDF通常是通过其他方法推导出来的,如通过特征函数、矩生成函数或最大熵原理等。这些方法不依赖于二项分布的极限形式。

综上所述,尽管二项分布在n很大时趋近于正态分布,但不能直接通过二项分布的推导式来得出正态分布的PDF。这种趋近性是通过中心极限定理来理解的,而不是通过直接的数学推导。

7、贝叶斯

全概率公式:表示若事件{A_1},{A_2}, \cdots ,{A_n}构成一个完备事件组且都有正概率,则对任意一个事件B都有公式成立: 

P(B) = \sum\limits_{i = 1}^n {P(B|{A_i}) \times P({A_i})}

将全概率公式带入贝叶斯公式中,得到:

P(A|B) = \frac{​{P(B|A) \times P(A)}}{​{\sum\limits_{i = 1}^n {P(B|{A_i}) \times P({A_i})} }}

8、朴素贝叶斯 

朴素贝叶斯的“朴素”之处在于它假设特征之间相互独立,即给定类别,一个特征的出现不影响其他特征的出现。这在现实世界中通常不成立,但在许多情况下,这种简化的假设仍然能够提供良好的分类性能。

 9、互斥事件是非独立的,因为互斥事件证明A与B有关系,独立事件a∩b=a*b成立,互斥事件由于不存在交集,不能乘法,所以互斥事件非独立。

10、 s(a1​,a2​)=4a12​+213​a22​+10a1​a2​−2a1​−2a2​ 的极值

为了找到函数 s(a1​,a2​)=4a12​+213​a22​+10a1​a2​−2a1​−2a2​ 的极值,并且 a1​ 和 a2​ 都大于等于0,我们可以使用拉格朗日乘数法或者直接求偏导数并解方程组。

这里,我们直接求偏导数并解方程组。

首先,对 s(a1​,a2​) 分别对 a1​ 和 a2​ 求偏导数:

∂a1​∂s​=8a1​+10a2​−2

∂a2​∂s​=13a2​+10a1​−2

为了找到极值点,我们令这两个偏导数等于0,并解方程组:

8a1​+10a2​−2=0

13a2​+10a1​−2=0

我们可以使用消元法来解这个方程组。首先,将第一个方程乘以5,第二个方程乘以-4,然后相加:

5(8a1​+10a2​−2)−4(13a2​+10a1​−2)=0

40a1​+50a2​−10−52a2​−40a1​+8=0

−2a2​−2=0

a2​=−1

但是,由于题目条件 a2​≥0,我们得到 a2​=−1 是不符合题意的。因此,我们需要检查是否有可能在边界条件 a2​=0 时找到极值。

将 a2​=0 代入第一个方程:

8a1​+10(0)−2=0

8a1​−2=0

a1​=41​

现在,我们得到了一个可能的极值点 (a1​,a2​)=(41​,0)。

接下来,我们需要检查这个点是极大值还是极小值,或者是否是不定点。由于这是一个二元二次函数,并且我们可以通过完成平方来找到它的标准形式,但在这里我们直接通过二阶偏导数来判断。

计算二阶偏导数:

∂a12​∂2s​=8

∂a22​∂2s​=13

∂a1​∂a2​∂2s​=10

由于 ∂a12​∂2s​⋅∂a22​∂2s​−(∂a1​∂a2​∂2s​)2=8⋅13−102=104−100=4>0,并且 ∂a12​∂2s​=8>0,我们知道在点 (41​,0) 处函数取得极小值。

将 a1​=41​ 和 a2​=0 代入原函数 s(a1​,a2​),得到极小值为:

s(41​,0)=4(41​)2+213​(0)2+10(41​)(0)−2(41​)−2(0)=41​−21​=−41​

因此,函数 s(a1​,a2​) 在条件 a1​≥0 和 a2​≥0 下的极小值为 −41​,对应点为 (41​,0)。由于这是一个开口向上的二次函数(由于二次项系数均为正),并且没有其他符合条件的临界点,因此这个极小值也是函数在该条件下的最小值。

11、凸二次规划

12、特征提取部分如果采用最大池化则在卷积之后可以先不激活直接在池化后激活 

且池化函数我们的padding参数默认valid,如果原图片size为13,步长为2,得出的结果6.5向下取整即6

还有特征提取阶段的池化层后一般我们是不用tanh或者relu函数激活的,卷积层激活即可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值