49、请简述如何利用降维技术进行异常检测,并以Olivetti人脸数据集为例说明具体步骤。
利用降维技术(如 PCA)进行异常检测,以 Olivetti 人脸数据集为例:
- 先对其用 PCA 降维并保留 99% 方差
- 计算图像重建误差
- 再将修改后的图像的重建误差与之对比
结果发现:
- 修改后图像重建误差大
- 且重建图像会尝试恢复成正常人脸形态
50、为什么通常更倾向于使用逻辑回归分类器而不是经典感知机(即使用感知机训练算法训练的单层阈值逻辑单元)?如何调整感知机使其等同于逻辑回归分类器?
通常更倾向于使用逻辑回归分类器而非经典感知机,原因有二:
- 感知机不输出类别概率 ,而逻辑回归可以;
- 感知机默认不使用任何正则化 ,且一旦训练集上没有更多预测错误就停止训练,因此模型的泛化能力通常不如逻辑回归或线性支持向量机分类器。
可将感知机的损失函数设为 "log" (逻辑损失),并使用合适的学习率和正则化参数,这样就能使感知机在功能上与逻辑回归分类器等效。
51、为什么Sigmoid激活函数是训练第一代多层感知机(MLP)的关键要素?
下面是给定的 文本内容 :
阶跃函数只有平坦段,没有梯度可供使用(梯度下降法无法在平坦表面上移动),而Sigmoid函数处处有定义明确的非零导数,允许梯度下降法在每一步都取得进展。
52、请列举三种流行的激活函数,并简要描述它们的特点
常见的三种激活函数
三种流行的激活函数为ReLU、Swish、Mish。
ReLU(Rectified Linear Unit)
- 定义 :即修正线性单元。
- 函数表达式 :$ f(x) = \max(0, x) $
- 特性 :
- 当输入 $ x $ 小于 0 时,输出为 0;
- 当输入 $ x $ 大于等于 0 时,输出等于输入。
- 优点 :
- 计算简单;
- 能有效缓解梯度消失问题。
- 应用 :在深度学习中被广泛应用。
Swish
- 函数表达式 :$ f(x) = x \cdot \text{sigmoid}(x) $
- 特点 :
- 一种自门控激活函数;
- 具有平滑、非单调的特点;
- 在一些模型中表现出比ReLU更好的性能。
Mish
- 函数表达式 :$ f(x) = x \cdot \tanh(\text{softplus}(x)) $
- 特点 :
- 是一个光滑的非单调激活函数;
- 在不同的输入区间有不同的特性;
- 能够更好地拟合复杂的数据分布。
53、假设你有一个多层感知机(MLP),它由一个包含10个直通神经元的输入层、一个包含50个人工神经元的隐藏层和一个包含3个人工神经元的输出层组成。所有人工神经元都使用ReLU激活函数。输入矩阵X的形状是什么?隐藏层的权重矩阵W和偏置向量b的形状是什么?输出层的权重矩阵W和偏置向量b的形状是什么?网络的输出矩阵Y的形状是什么?写出将网络的输出矩阵Y表示为X、W、b、W和b的函数的方程。
- 输入矩阵X的形状 :假设输入样本数量为m,则X的形状为
(m, 10)。 - 隐藏层的权重矩阵Wₕ和偏置向量bₕ的形状 :
- Wₕ的形状为(10, 50)
- bₕ的形状为(50,) - 输出层的权重矩阵Wₒ和偏置向量bₒ的形状 :
- Wₒ的形状为(50, 3)
- bₒ的形状为(3,) - 网络的输出矩阵Y的形状 :Y的形状为
(m, 3)。 - 计算网络输出矩阵Y的方程 :
- 设 Zₕ = XWₕ + bₕ
- Aₕ = ReLU(Zₕ)
- Zₒ = AₕWₒ + bₒ
- Y = ReLU(Zₒ)
54、如果要将邮件分类为垃圾邮件或正常邮件,输出层需要多少个神经元?输出层应使用什么激活函数?如果要处理MNIST数据集,输出层需要多少个神经元,应使用什么激活函数?如果要让网络预测房价,情况又如何?
- 将邮件分类为垃圾邮件或正常邮件,输出层需要1个神经元,使用
sigmoid激活函数; - 处理MNIST数据集,输出层需要10个神经元,使用
softmax激活函数; - 预测房价,输出层需要1个神经元,可根据情况选择:
- 无激活函数
-
ReLU/softplus(输出为正数时) -
sigmoid/tanh(输出有界时)
55、能否列出在基本多层感知机(MLP)中可以调整的所有超参数?如果MLP对训练数据过拟合,如何调整这些超参数来尝试解决问题?
在基本MLP中可以调整的超参数包括:
- 层数
- 每层的神经元数量
- 每层使用的激活函数类型
- 权重初始化逻辑 <

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



