
程序员面试
文章平均质量分 82
水木流年追梦
清华大学计算机研究生,专研算法工程
展开
-
重磅福利!程序员面试——算法工程师面试大全第六部分
1.什么是 seq2seq model?Seq2seq 属于 encoder-decoder 结构的一种,利用两个 RNN,一个作为 encoder 一个作为 decoder.Encoder 负责将输入序列压缩成指定长度的向量,这个向量可以看作这段序列的语义, 而 decoder 负责根据语义向量生成指定的序列.2.激活函数的作用激活函数是用来加入非线性因素的,提高神经网络对模型...原创 2020-02-25 12:39:13 · 333 阅读 · 0 评论 -
重磅福利!程序员面试——算法工程师面试大全第五部分
1.Batch Normalization 的作用神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数 的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失.而 Batch Normalization 的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得 激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,...原创 2020-02-25 11:48:12 · 425 阅读 · 0 评论 -
福利网站!程序员面试——算法工程师面试大全第四部分
1.xgboost 的特征重要性计算Xgboost 根据结构分数的增益情况计算出来选择哪个特征作为分割点,而某个特征的重要性 就是它在所有树中出现的次数之和.2.xgboost 特征并行化怎么做的决策树的学习最耗时的一个步骤就是对特征值进行排序,在进行节点分裂时需要计算每个特 征的增益,最终选增益大的特征做分裂,各个特征的增益计算就可开启多线程进行.而且可以采用 并行化的近似直方...原创 2020-02-25 09:17:13 · 856 阅读 · 0 评论 -
福利网站!程序员面试——算法工程师面试大全第三部分
1.L1 和 L2 正则化的区别L1 是模型各个参数的绝对值之和,L2 为各个参数平方和的开方值.L1 更趋向于产生少量的特征,其它特征为 0,最优的参数值很大概率出现在坐标轴上,从而导致产生稀疏的权重矩阵,而 L2 会选择更多的矩阵,但是这些矩阵趋向于 0.2.Loss Function 有哪些,怎么用?平方损失(预测问题),交叉熵(分类问题),hinge 损失(SVM 支持向...原创 2020-02-25 08:25:27 · 420 阅读 · 0 评论 -
面试必备资源!程序员面试——算法工程师面试大全第二部分
1.逻辑回归怎么实现多分类方式一:修改逻辑回归的损失函数,使用 softmax 函数构造模型解决多分类问题,softmax 分 类模型会有相同于类别数的输出,输出的值为对于样本属于各个类别的概率,最后对于样本进行 预测的类型为概率值最高的那个类别.方式二:根据每个类别都建立一个二分类器,本类别的样本标签定义为 0,其它分类样本标签 定义为 1,则有多少个类别就构造多少个逻辑回归分类器 若所...原创 2020-02-24 22:30:10 · 333 阅读 · 0 评论 -
程序员面试——C++工程师面试大全第一部分
1.static 关键字的作用1. 全局静态变量在全局变量前加上关键字 static,全局变量就定义成一个全局静态变量.静态存储区,在整个程序运行期间一直存在.初始化:未经初始化的全局静态变量会被自动初始化为 0(自动对象的值是任意的,除非他 被显式初始化);作用域:全局静态变量在声明他的文件之外是不可见的,准确地说是从定义之处开始,到文件结尾.2. 局部静态变量在局部...原创 2020-02-24 13:41:40 · 602 阅读 · 0 评论 -
福利网站!程序员面试——算法工程师面试大全第一部分
1.SGD,Momentum,Adagard,Adam 原理SGD 为随机梯度下降,每一次迭代计算数据集的 mini-batch 的梯度,然后对参数进行跟新.Momentum 参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的 梯度叠加在当前计算中会有一定的衰减.Adagard 在训练的过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习 率与以往的...原创 2020-02-24 11:34:06 · 614 阅读 · 0 评论