机器学习术语总结-3--个人向

本文深入浅出地解析了机器学习领域的关键术语,如softmax函数、one-hot向量、异方差模型、多峰回归等,旨在帮助初学者理解和掌握这些概念。同时探讨了神经网络中的各种单元和变换,如maxout单元、仿射变换、高斯混合模型等,以及机器学习中常见的问题。

PS:一只正在学习机器学习的菜鸟。术语组成主要是深度学习(入门圣经)+维基百科+自己的理解。写这个主要是因为在自己学习过程中有一些术语查了又忘,忘了又查。。。所以写篇博客记录一下,术语不是按学习顺序记录的。都是基于自己的理解写出来的话,比较通俗易懂,错误的还请大家指正。同时会在文末放上自己学习上没弄明白的点,也希望大神能评论指出。
一.术语

1.softmax函数

在数学,尤其是概率论和相关领域中,Softmax函数,或称归一化指数函数[1]:198,是逻辑函数的一种推广。它能将一个含任意实数的K维向量 {\displaystyle \mathbf {z} }“压缩”到另一个K维实向量 {\displaystyle \sigma (\mathbf {z} )}  中,使得每一个元素的范围都在{\displaystyle (0,1)}之间,并且所有元素的和为1。该函数的形式通常按下面的式子给出:

                                                                        {\displaystyle \sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{\sum _{k=1}^{K}e^{z_{k}}}}}    for j = 1, …, K

2.one-hot向量

只有一个元素为 1,其余元素都为 0 的向量。

3.异方差模型

异方差(Heteroscedasticity):指一系列的随机变量其方差不相同。

我们可能希望模型对不同的 x 值预测出 y 不同的方差。这被称为 异 方差(heteroscedastic)模型。

当我们利用普通最小平方法(Ordinary Least Squares)进行回归估计时,常常做一些基本的假设。其中之一就是误差项(Error term)的方差是不变的。异方差是违反这个假设的。如果普通最小平方法应用于异方差模型,会导致估计出的方差值是真实方差值的偏误估计量(Biased standard error), 但是估计值(estimator)是不偏离的(unbiased)。

4.多峰回归(multimodal regression)

多峰回归 ,多模态回归,即预测条件分布 p(y | x) 的实值,该条件分布对于相同的 x 值在 y 空间中有多个不同的峰值。

(其实这个我也不太理解,是指多个输出结果么?欢迎评论留言)

5.高斯混合模型(Gaussian Mixed Model)

将高斯混合作为其 输出的神经网络通常被称为 混合密度网络(mixture density network)

高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。简单来说就是数据集中的样本来自于多个不同的分布,比如说身高数据,虽然两个都可以用高斯分布模型来表示,但是男生和女生的身高分布是不同的(女生的身高普遍会比男生要低一些)。

6.混合密度网络(mixture density network)

将高斯混合作为其 输出的神经网络通常被称为 混合密度网络。

7.线性映射

线性代数
在数学中,线性映射(有的书上将“线性变换”作为其同义词,有的则不然)是在两个向量空间(包括由函数构成的抽象的向量空间)之间的一种保持向量加法和标量乘法的特殊映射。

看例子

{\displaystyle V}{\displaystyle W}是在相同域 {\displaystyle K}上的向量空间。法则{\displaystyle f:V\rightarrow W}被称为是线性映射,如果对于{\displaystyle V}中任何两个向量 {\displaystyle x}{\displaystyle y}{\displaystyle K}中任何标量 {\displaystyle a},满足下列两个条件:

可加性:    {\displaystyle f(x+y)=f(x)+f(y)\,}
齐次性:    {\displaystyle f(ax)=af(x)\,}
这等价于要求对于任何向量 {\displaystyle x_{1},\ldots ,x_{m}}和标量 {\displaystyle a_{1},\ldots ,a_{m}}

方程{\displaystyle f(a_{1}x_{1}+\cdots +a_{m}x_{m})=a_{1}f(x_{1})+\cdots +a_{m}f(x_{m})} 成立。 

8.仿射变换


一个使用仿射变换所制造有自相似性的分形仿射变换,又称仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。一个对向量 {\displaystyle {\vec {x}}}平移 {\displaystyle {\vec {b}}},与旋转放大缩小 {\displaystyle A}的仿射映射为

{\displaystyle {\vec {y}}=A{\vec {x}}+{\vec {b}}}

9.绝对值整流,渗漏整流线性单元和参数化整流线性单元

整流线性单元的三个扩展基于当 zi < 0 时使用一个非零的斜率 αi:hi = g(z, α)i = max(0, zi) + αi min(0, zi)。 绝对值整流(absolute value rectification)固 定 αi = −1 来得到 g(z) = |z|。它用于图像中的对象识别 (Jarrett et al., 2009a), 其中 寻找在输入照明极性反转下不变的特征是有意义的。整流线性单元的其他扩展比这 应用地更广泛。渗漏整流线性单元(Leaky ReLU)(Maas et al., 2013) 将 αi 固定成 一个类似 0.01 的小值, 参数化整流线性单元(parametric ReLU)或者 PReLU 将αi 作为学习的参数 (He et al., 2015)。

10.maxout单元(maxout unit)

maxout 单元(Goodfellow et al., 2013a) 进一步扩展了整流线 性单元。maxout 单元将 z 划分为每组具有 k 个值的组,而不是使用作用于每个元素的函数 g(z)。每个maxout 单元则输出每组中的最大元素。maxout 单元可以学习具有多达 k 段的分段线性的凸函数。maxout 单元因此可 以视为学习激活函数本身而不仅仅是单元之间的关系。使用足够大的 k,maxout 单元可以以任意的精确度来近似任何凸函数。

11.灾难遗忘(catastrophic forgetting)

这个现象是说神经网络忘记 了如何执行它们过去训练的任务。

二.问题

最大似然框架也使得学习高斯分布的协方差矩阵更加容易,或更容易地使高斯 分布的协方差矩阵作为输入的函数。然而,对于所有输入,协方差矩阵都必须被限 定成一个正定矩阵。线性输出层很难满足这种限定,所以通常使用其他的输出单元 来对协方差参数化。

1.为什么协方差矩阵必须被限定成一个正定矩阵?

2.为什么线性输出层很难满足这种限定?

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值