这里写目录标题
牛客网整理鸡本人相关面试经历整理得来,侵删
京东一面
描述下前向传播、后向传播;
1.什么是梯度下降,有哪些优化算法,区别是什么,它们(SGD,BGD,mini-BGD)的区别;
2.常见的激活函数有哪些;
3.sigmoid的特点;
4.为什么要用非线性激活函数,relu右侧导数是1,为什么能作为激活函数;
5.激活函数为什么要零均值输出;
6.梯度消失和梯度爆炸的原因,怎么解决;
7.什么是过拟合和欠拟合,怎么解决;
8.Dropout什么原理;
9.L1和L2正则化介绍下;
10.验证集是做什么的,测试集效果怎么评估;
11.介绍下AUC和F1-score;
12.分类和回归都用什么损失函数,分类为什么不用平方损失;
13.课题组做什么,效果怎么样?
答案:
1.梯度下降
梯度下降是一种迭代优化方法,得到最小化的损失函数和模型参数值。
优化算法有SGD,Momentum,Adagard,Adam;(1)SGD为随机梯度下降,然后对参数进行更新;(2)Momentum前几轮的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。(3)Adagard在训练的时候可以自动变更学习速率,设置一个全局的学习率,而实际的学习率与以往的参数模和的开方成反比(4)Adam利用梯度的一阶矩和二阶矩估计动态调整每个参数的学习率,在经过偏置的校正后,每一次迭代后的学习率都有个确定的范围,使得参数较为平稳。
2.激活函数
(1)Sigmoid函数
Sigmoid 是常用的非线性的激活函数,它的数学形式如下:
f ( z ) = 1 / ( 1 + e − z ) f(z)={1}/(1+e^{-z}) f(z)=