
面试
Neekity
刷出一片天
展开
-
神经网络激活函数总结
神经网络中, 运算特征是不断进行循环计算, 所以在每代循环过程中, 每个神经元的值也是在不断变化的。 这就导致了Tanh函数在特征相差明显时的效果会很好, 在循环过程中其会不断扩大特征效果并显示出来。但有时当计算的特征间的相差虽比较复杂却没有明显区别, 或是特证间的相差不是特别大时, 就需要更细微的分类判断, 这时Sigmoid函数的效果就会更好一些。后来出现的ReLU激活函数的优势是, 经过...原创 2019-01-13 19:06:55 · 408 阅读 · 0 评论 -
机器学习面试必知:特征归一化
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。线性归一化,对原数据进行线性变换,使得结果映射到[0,1]的范围。Xnorm=X−XminXmax−XminX_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}Xnorm=Xmax−XminX−Xmin零均值归一化,将原数据映射到均值为0,标准差为1的分...原创 2019-03-06 15:22:00 · 625 阅读 · 0 评论 -
机器学习面试必知:评价指标和含义
TP—正确地预测了正类,正→\rightarrow→正TN—正确地预测了负类,负→\rightarrow→负FP—错误地预测了正类,负→\rightarrow→正FN—错误地预测了负类,正→\rightarrow→负准确率Accuracy=TP+TNTP+TN+FP+FNAccuracy=\frac{TP+TN}{TP+TN+FP+FN}Accuracy=TP+TN+FP+FNTP+...原创 2019-03-06 15:58:13 · 1029 阅读 · 0 评论 -
机器学习面试必知:集成学习之Bagging,Boosting与Stacking
集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。主要有Bagging与Boosting,当然还有Stacking。BoostingBoosting的过程很类似于人类学习的过程,我们会对错误的地方反复巩固学习,是不是每个人都有一本错题集反复练习。以后学习的时候,我们就针对翻过的错误加强学习,以减少类似的错误发生。如此反复,直到犯错误的次数减少到很低的程度。所以Boost...原创 2019-03-04 15:25:41 · 1108 阅读 · 0 评论 -
机器学习面试必知:偏差-方差分析
过拟合形象确实是最大似然方法的一个不好的性质,但我们在使用贝叶斯方法对参数进行求和或者积分时,过拟合不会出现。回归线性模型中的最小平方方法也同样会产生过拟合。虽然引入正则化可以控制具有多个参数的模型的过拟合问题,但是这也会产生一个问题,如何确定正则化系数λ\lambdaλ 。我们已经知道当使用平方损失函数时,最优的预测由条件期望给出即h(x)=E[t∣x]=∫tp(t∣x)dth(x)=E[...原创 2019-03-04 16:50:14 · 1670 阅读 · 0 评论 -
机器学习面试必知:核技巧
许多线性模型可以转化为一个等价的对偶表示。对偶表示中,预测的基础也是在训练数据点处计算的核函数的线性组合。对于基于固定的非线性特征空间映射ϕ(x)\phi(x)ϕ(x)的模型来说,核函数由下面的关系给出k(x,x′)=ϕ(x)Tϕ(x′)k(x,x')=\phi(x)^{T}\phi(x')k(x,x′)=ϕ(x)Tϕ(x′)linrear kernel...原创 2019-03-14 16:24:59 · 387 阅读 · 0 评论 -
机器学习面试必知:随机森林
随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林由多个决策树构成。决策树中的每一个节点都是关于某个特征的条件,为的是将数据集按照不同的响应变量一分为二。利用不纯度可以确定节点(最优条件),对于分类问题,通常采用基尼不纯度(将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率)或者信息增益(当前熵与两个新群组经加权平均后的熵之间的差值)。能否将随机森林中的基分类器由...原创 2019-03-10 15:41:30 · 1829 阅读 · 0 评论 -
机器学习面试必知:MLE最大似然估计与MAP最大后验概率
MLE模型已定,参数未知,MLE的目标就是找出一组参数,使得模型产生出的观测数据的概率最大arg maxu p(X;u)arg\ \underset{u}{max}\ p(X;u)arg umax p(X;u)假设抛十次硬币TTTHTTTHTT(H正,T反)假设正面朝上的概率是uuup(x;u)=∏ip(xi;u)=∏i=1nuxi(1−u)xip...原创 2019-03-07 15:08:18 · 2407 阅读 · 1 评论 -
机器学习面试必知:拟牛顿法(DFP和BFGS)
牛顿法的特点就是收敛快。但是运用牛顿法需要计算二阶偏导数,而且目标函数的Hesse矩阵可能非正定。为了克服牛顿法的缺点,人们提出了拟牛顿法,它的基本思想是用不包含二阶导数的矩阵近似牛顿法中的Hesse矩阵的逆矩阵。牛顿法的迭代公式x(k+1)=x(k)+λd(k)x^{(k+1)}=x^{(k)}+\lambda d^{(k)}x(k+1)=x(k)+λd(k)d(k)=−▽2f(x(k))...原创 2019-03-11 15:02:09 · 1473 阅读 · 0 评论 -
机器学习面试必知:AUC
AUC指的是ROC曲线下的面积的大小,该值能够量化地反映基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都在y=x这条直线的上方(如果处于下方,反转概率为1-p即可)所以AUC的值[0.5,1]。AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好。...原创 2019-03-11 16:58:58 · 1470 阅读 · 0 评论 -
机器学习面试必知:牛顿法实现sqrt
牛顿法是一种常用的求方程数值解,具体方法如下若在区间III中,f(x)f(x)f(x)连续可导,且有唯一零点x0x_{0}x0,则任取x1∈Ix_{1}\in Ix1∈I,定义数列xn+1=xn−f(xn)f′(xn)x_{n+1}=x_{n}-\frac{f(x_{n})}{f^{'}(x_{n})}xn+1=xn−f′(xn)f(xn)经过多次迭代后xnx_...原创 2019-03-11 20:38:23 · 645 阅读 · 0 评论 -
机器学习面试必知:KL散度
考虑某个未知的分布p(x)p(x)p(x),假定我们已经使用了一个近似的分布q(x)q(x)q(x)对它进行了建模。如果我们使用q(x)q(x)q(x)来建立一个编码体系,用来把x的值传给接受者,那么由于我们使用了q(x)q(x)q(x)而不是真正的p(x)p(x)p(x),因此在具体化x的值时,我们需要一些附加信息。我们需要的平均的附加信息量为KL(p∣∣q)=−∫p(x)lnq(x)dx−(−...原创 2019-03-12 15:04:12 · 963 阅读 · 0 评论 -
机器学习面试必知:学生t分布的神奇之处
11原创 2019-03-12 16:51:14 · 6715 阅读 · 0 评论 -
机器学习面试必知:贝叶斯原理
先总结下频率派与贝叶斯派各自不同的思考方式:~频率派把未知参数θ\thetaθ当作是固定的未知常数。样本X是随机的,重点研究的是样本空间,大部分的计算也是针对样本X的分布~贝叶斯派截然相反,认为θ\thetaθ是随机变量,样本X是固定的。重点研究的是参数θ\thetaθ分布频率派很好理解,因为X样本已知,所以在最大似然方法下很容易去求得一个θ\thetaθ值使得模型的概率最大。而贝叶斯认...原创 2019-03-26 15:57:16 · 500 阅读 · 0 评论 -
生成模型与判别模型
判别模型:学习决策函数或者条件概率分布。直观来说学习的是类别之间的最优分隔面,反映的是不同类数据之间的差异优点:直接面对预测,准确率往往很高。由于直接学习的是p(y|x)或者f(x),可以对数据进行各种程度的抽象,定义特征并使用特征,从而简化学习过程。缺点:不能反应训练数据本身的特性模型:K 近邻、感知机(神经网络)、决策树、逻辑斯蒂回归、最大熵模型、SVM、提升方法、条件随机场生成...原创 2019-04-10 16:16:02 · 249 阅读 · 0 评论 -
机器学习面试必知:DBSCAN
与传统的Kmeans相比,DBSCAN最大的不同就是不需要输入类别数k,最大的优势是可以发现任意形状的聚类簇。如果数据是稠密的,并且数据集不是凸的,那么DBSCAN就比Kmeans好用很多,如果数据不是稠密的,则不推荐用DBSCAN。输入:样本集D=(x1,x2,...,xm)D=(x_{1},x_{2},...,x_{m})D=(x1,x2,...,xm),邻域数(ϵ,MinNu...原创 2019-04-21 19:09:06 · 1513 阅读 · 0 评论 -
机器学习面试必知:SVM怎么扩展到多分类问题
1.类似建立二叉树的过程,每个叶子结点就是一个类别,这样成功地将二分类转化为多分类2.一对剩余方法,将一类标记为正样本其余的类都标记为负样本来训练SVM,这样不断迭代进行就能转换为多分类问题。...原创 2019-04-20 10:41:44 · 1168 阅读 · 0 评论 -
机器学习面试必知:推荐算法FM
传统的线性模型如LR中,每个特征都是独立的,如果需要特征与特征直接的交互作用,需要人工对特征进行交叉组合,例如核方法。但是在特征高度稀疏的情况下,并不能很好地进行学习。很多分解模型Factorization model如矩阵分解MF,SVD++等,这些模型可以学习到特征之间的交互隐藏关系,但是每个模型都只适用于特定的输入和场景。因此,在高度稀疏的数据场景下推荐系统FM(Factorizati...原创 2019-04-20 14:04:32 · 2455 阅读 · 0 评论 -
机器学习面试必知:XGBoost简介
原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树,只是在决策树构建完成后再进行剪枝。而XGBoost在决策树构建阶段就加入了正则项即Lt=∑il(yi,Ft−1(xi)+ft(xi))+Ω(ft)L_{t}=\sum_{i}l(y_{i},F_{t-1}(x_{i})+f_{t}(x_{i}))+\Omega(f_{t})Lt=i∑l(yi,Ft−1(xi)+ft(xi))...原创 2019-03-06 14:41:04 · 969 阅读 · 0 评论 -
机器学习面试必知:决策树
决策树(decision tree)是一种基本的分类与回归方法,主要优点时模型具有可读性,分类速度快,学习时利用训练数据根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。决策树学习的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化。确定了损失函数后,学习问题就变...原创 2019-03-03 18:38:24 · 785 阅读 · 0 评论 -
机器学习面试必知:知识点大全(持续更新中)
牛客网原链接知识整理–机器学习知识点整理这里做了一点小改动一、机器学习单模型1、LR的损失函数的公式和函数2、LR的推导过程3、LR如何解决共线性,为什么深度学习不强调4、LR如何防止过拟合5、LR分布式训练怎么做6、LR为什么使用Sigmoid7、SVM的损失函数8、SVM的推导过程9、SVM怎么扩展到多分类问题10、SVM分类泛化,SVM回归泛化11、LR和SVM...转载 2019-03-05 14:46:25 · 1316 阅读 · 1 评论 -
AlexNet的新技术点:
AlexNet的新技术点:1:成功使用ReLU作为CNN的激活函数,在较深的网络中效果超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题2:训练时使用Dropout随机忽略一部分神经元,以避免过拟合。最后几个全连接层使用Dropout3:在CNN中使用重叠的最大池化,步长比池化核的尺寸小,池化层的输出之间会有重叠和覆盖,提升了特征的丰富性4:提出了LRN层,对局部神经...原创 2019-01-09 19:59:06 · 916 阅读 · 0 评论 -
对数值类型的特征做归一化的必要性
比如x1的范围是[0,10],x2的范围是[0,100]。 两者的量纲是不等的,可想而知相比于x1,x2需要更多的迭代步数才能收敛到最佳值,从而使最后的结果更青睐于x2特征。而当归一化后,x1,x2的量纲相等,不仅能减少迭代步数,还能使两种特征对最后的结果影响相同。...原创 2019-01-09 16:27:45 · 720 阅读 · 0 评论 -
预处理时如何处理类别型特征
1.序号编码: 比如成绩的优,良,及格,不合格可以编码成4,3,2,12.one-hot(独热)编码:优(1,0,0,0),良(0,1,0,0),及格(0,0,1,0),不合格(0,0,0,1)3.二进制编码:优—>100(对应于十进制的4),良—>011,及格—>010,不合格—>001...原创 2019-01-09 16:51:28 · 835 阅读 · 0 评论 -
机器学习面试必知:简单易懂的逻辑回归
##LR推导 ## LR假设有数据集{(x1,t1),...,(xn,tn)}\left \{ (x_{1},t_{1}),...,(x_{n},t_{n}) \right \}{(x1,t1),...,(xn,tn)}Φn=Φ(xn)\Phi _{n}=\Phi \left ( x_{n}\right )Φn=Φ(xn) 其中Φ\PhiΦ是基函数y(Φ)=σ(wTΦ)y\le...原创 2019-02-22 18:28:58 · 999 阅读 · 0 评论 -
机器学习面试必知:理解L1与L2正则化
需要最小化的总的误差函数为ED(w)+λEW(w)E_{D}(w)+\lambda E_{W}(w)ED(w)+λEW(w)前面的一项是我们一般所说的损失函数,后一项是正则化项。一般有L1正则化:EW(w)=∣∣w∣∣1E_{W}(w)=||w||_{1}EW(w)=∣∣w∣∣1L2正则化:EW(w)=∣∣w∣∣22E_{W}(w)=||w||_{2}^{2}EW(w)=∣∣w∣∣...原创 2019-02-23 13:39:51 · 585 阅读 · 0 评论 -
机器学习面试必知:Adaboost算法的精确形式
初始化数据加权系数wn=1/Nw_{n}=1/Nwn=1/N对于m=1,...,Mm=1,...,Mm=1,...,M使用训练数据调节一个分类器ym(x)y_{m}(x)ym(x),调节的目标是最小化加权的误差函数Jm=∑n=1Nwn(m)I(ym(xn)≠tn)J_{m}=\sum_{n=1}^{N}w_{n}^{(m)}I(y_{m}(x_{n})\neq t_{n})Jm=n=...原创 2019-02-23 15:59:51 · 381 阅读 · 0 评论 -
机器学习面试必知:一文理解支持向量机(SVM)
1. 首先我们要是决策距离最大化我们先来求点xxx到一个超平面f(x)=wTx+bf(x)=w^{T}x+bf(x)=wTx+b的距离:假设有一点xxx,垂直投影到超平面上对应点为x0x_{0}x0, www是垂直于超平面的一个向量, γ\gammaγ为样本xxx到超平面的距离。易知x=x0+γw∣∣w∣∣x=x_{0}+\gamma \frac{w}{||w||}x=x0+γ∣∣w∣...原创 2019-02-23 20:23:10 · 690 阅读 · 0 评论 -
机器学习面试必知:梯度消失和梯度爆炸
在深度前馈网络中假设有数据集{(x(1),y(1)),...,(x(m),y(m))}\left \{ (x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \right \}{(x(1),y(1)),...,(x(m),y(m))}构建代价函数,其中sls_{l}sl表示第lll层的节点数 J(W,b)=1m∑i=1mJ(W,b;x(i),y(i))+λ2∑l=1N...原创 2019-02-24 21:18:46 · 897 阅读 · 0 评论 -
机器学习面试必知:最大方差理论和最小平方误差理论下的PCA(主成分分析)的公式推导
最大方差理论PCA(主成分分析),旨在找到数据中的主成分,并利用这些主成分表征原始数据从而达到降维的目的。在信号处理领域,我们认为信号具有较大方差,而噪声具有较小方差。因此我们不难引出PCA的目标即最大化投影方差,也就是让数据在主轴上投影的方差最大(在我们假设中方差最大的有用信号最大化减少了噪声的影响)。对于给定的一组数据点{v1,...,vn}\left\{v_{1},...,v_{n}...原创 2019-02-25 16:13:10 · 3394 阅读 · 0 评论 -
机器学习面试必知:K均值聚类
假设我们有一个数据集{x1,...,xN}\left\{x_{1},...,x_{N} \right\}{x1,...,xN},它由D维欧几里得空间中的随机变量xxx的NNN次观测组成。引入一组DDD维向量uk,k=1,...,Ku_{k},k=1,...,Kuk,k=1,...,K,对于每个数据点xnx_{n}xn,我们引入一组对应的二值指示向量rnk∈{0,1}r_{nk}\in \l...原创 2019-02-26 21:06:02 · 497 阅读 · 0 评论 -
机器学习面试必知:SVM和LR的关系
面试中经常会被问到的问题与线性可分的情形一样,对于线性不可分的概率分布,我们可以用最小化正则化的误差函数来重新表示SVM。这也使得我们能够强调与logistic回归模型之间的相似性和差别。我们已经看到对于边缘边界正确的一侧数据点,即满足yntn≥1y_{n}t_{n}\geq 1yntn≥1。对于其余的数据点ξn=1−yntn>0\xi_{n}=1-y_{n}t_{n}&am...原创 2019-02-27 15:08:49 · 1183 阅读 · 0 评论 -
机器学习面试必知:SVM中解决泛化问题
在前面SVM一文中,我们解得的支持向量机在原始空间中是对训练数据能精确划分的如下图所示。可想而知,有大概率会出现过拟合的问题。这样的支持向量机的泛化能力较差。因此我们需要一种方式修改支持向量机,允许一些训练数据点被误分类,从而获得一个更好的泛化能力。我们允许数据点在边缘边界的错误侧,同时增加一个惩罚项,这个惩罚项随着与决策边界的距离的增大而增大。我们令这个惩罚项是距离的线性函数,为了实现它我们引...原创 2019-02-27 21:04:09 · 3853 阅读 · 0 评论 -
机器学习面试必知:SVM回归的泛化
从 机器学习面试必知:SVM和LR的关系 一文中,我们可以看到SVM相比于LR的优势在于能产生稀疏解。现在把SVM应用到回归问题中,同时保持它的稀疏性。在简单的线性回归模型中,我们最小化一个正则化的误差函数12∑n=1N(yn−tn)2+λ2∣∣w∣∣2\frac{1}{2}\sum_{n=1}^{N}(y_{n}-t_{n})^{2}+\frac{\lambda}{2}||w||^{2}21...原创 2019-02-28 21:30:14 · 959 阅读 · 0 评论 -
机器学习面试必知:LR中的共线性问题和解决方法
多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树或者朴素贝叶斯,前者的建模过程时逐渐递进,每次都只有一个变量参与,这种机制含有抗多重共线性干扰的功能;后者假设变量之间是相互独立的。但对于回归算法来说,都要同时考虑多个预测因子,因此多重共线性不可避免。我们先来看共线性的原理,假设k个自变量的多元线性回归模型:y=θ0+θ1x1+...+θkxk=θTx+ϵy=\th...原创 2019-03-01 13:43:10 · 4124 阅读 · 2 评论 -
机器学习面试必知:最小平方和LDA(Fisher线性判别分析)的关系
PCA无监督,LDA有监督在PCA一文中,我们简单地提到了如果是二维空间中的样本点,那么我们就是求解出一条直线使得样本投影到该直线上的方差最大。从回归的角度来看其实就是求解出一个线性函数来拟合样本点集合。所以我们可以从维度降低的角度来考察线性分类器。考虑二分类的情形,假设我们有一个D维输入向量xxx,然后我们使用y=wTxy=w^{T}xy=wTx投影到一维。我们设置一个阈值,有N1N_...原创 2019-02-25 20:22:13 · 1593 阅读 · 1 评论 -
机器学习面试必知:高斯混合模型GMM和期望最大化EM算法
通过将更基本的概率分布(例如高斯分布)进行线性组合的这样的叠加方法,可以被形式化为概率模型,被称为混合模型。通过使用足够多的高斯分布,并且调节它们的均值和方差以及线性组合的系数,几乎所有的连续概率密度都能以任意的精度去近似。我们考虑K个高斯概率密度的叠加,形式为p(x)=∑k=1KπkN(x∣uk,Σk)p(x)=\sum_{k=1}^{K}\pi_{k}N(x|u_{k},\Sigma_{...原创 2019-03-01 17:54:23 · 2051 阅读 · 0 评论 -
机器学习面试必知:GBDT
Freidman提出了梯度提升算法,利用最速下降法的近似方法,关键是利用损失函数的负梯度在当前模型的值−[∂L(y,f(xi))∂f(xi)]f(x)=fm−1(x)-[\frac{\partial L(y,f(x_{i}))}{\partial f(x_{i})}]_{f(x)=f_{m-1}(x)}−[∂f(xi)∂L(y,f(xi))]f(x)=fm−1(x)作为回归问题提升树算...原创 2019-03-05 14:22:17 · 829 阅读 · 0 评论 -
机器学习面试必知:1✖️1卷积核
降维或者升维,通过改变通道数实现算是激活函数,所以相当于在模型中加入了非线形原创 2019-04-20 14:21:27 · 1784 阅读 · 0 评论