
统计学习
Neekity
刷出一片天
展开
-
python 感知机 统计学习李航
想按书本上的步骤来实现,有了几个问题1.首先是损失函数的定义,我这里用了平方和2.由于数据量太少导致无法学习,w,b设置为一个初始值后就不会有变化import tensorflow as tfimport numpy as nptrain_x=np.asarray([[3.,3.],[4.,3.],[1.,1.]])train_y=np.asarray([[1],[1],[-1]])...原创 2019-01-12 14:51:02 · 217 阅读 · 0 评论 -
机器学习面试必知:集成学习之Bagging,Boosting与Stacking
集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。主要有Bagging与Boosting,当然还有Stacking。BoostingBoosting的过程很类似于人类学习的过程,我们会对错误的地方反复巩固学习,是不是每个人都有一本错题集反复练习。以后学习的时候,我们就针对翻过的错误加强学习,以减少类似的错误发生。如此反复,直到犯错误的次数减少到很低的程度。所以Boost...原创 2019-03-04 15:25:41 · 1108 阅读 · 0 评论 -
机器学习面试必知:偏差-方差分析
过拟合形象确实是最大似然方法的一个不好的性质,但我们在使用贝叶斯方法对参数进行求和或者积分时,过拟合不会出现。回归线性模型中的最小平方方法也同样会产生过拟合。虽然引入正则化可以控制具有多个参数的模型的过拟合问题,但是这也会产生一个问题,如何确定正则化系数λ\lambdaλ 。我们已经知道当使用平方损失函数时,最优的预测由条件期望给出即h(x)=E[t∣x]=∫tp(t∣x)dth(x)=E[...原创 2019-03-04 16:50:14 · 1670 阅读 · 0 评论 -
机器学习面试必知:核技巧
许多线性模型可以转化为一个等价的对偶表示。对偶表示中,预测的基础也是在训练数据点处计算的核函数的线性组合。对于基于固定的非线性特征空间映射ϕ(x)\phi(x)ϕ(x)的模型来说,核函数由下面的关系给出k(x,x′)=ϕ(x)Tϕ(x′)k(x,x')=\phi(x)^{T}\phi(x')k(x,x′)=ϕ(x)Tϕ(x′)linrear kernel...原创 2019-03-14 16:24:59 · 387 阅读 · 0 评论 -
机器学习面试必知:MLE最大似然估计与MAP最大后验概率
MLE模型已定,参数未知,MLE的目标就是找出一组参数,使得模型产生出的观测数据的概率最大arg maxu p(X;u)arg\ \underset{u}{max}\ p(X;u)arg umax p(X;u)假设抛十次硬币TTTHTTTHTT(H正,T反)假设正面朝上的概率是uuup(x;u)=∏ip(xi;u)=∏i=1nuxi(1−u)xip...原创 2019-03-07 15:08:18 · 2408 阅读 · 1 评论 -
机器学习面试必知:KL散度
考虑某个未知的分布p(x)p(x)p(x),假定我们已经使用了一个近似的分布q(x)q(x)q(x)对它进行了建模。如果我们使用q(x)q(x)q(x)来建立一个编码体系,用来把x的值传给接受者,那么由于我们使用了q(x)q(x)q(x)而不是真正的p(x)p(x)p(x),因此在具体化x的值时,我们需要一些附加信息。我们需要的平均的附加信息量为KL(p∣∣q)=−∫p(x)lnq(x)dx−(−...原创 2019-03-12 15:04:12 · 963 阅读 · 0 评论 -
机器学习面试必知:学生t分布的神奇之处
11原创 2019-03-12 16:51:14 · 6715 阅读 · 0 评论 -
机器学习面试必知:贝叶斯原理
先总结下频率派与贝叶斯派各自不同的思考方式:~频率派把未知参数θ\thetaθ当作是固定的未知常数。样本X是随机的,重点研究的是样本空间,大部分的计算也是针对样本X的分布~贝叶斯派截然相反,认为θ\thetaθ是随机变量,样本X是固定的。重点研究的是参数θ\thetaθ分布频率派很好理解,因为X样本已知,所以在最大似然方法下很容易去求得一个θ\thetaθ值使得模型的概率最大。而贝叶斯认...原创 2019-03-26 15:57:16 · 500 阅读 · 0 评论 -
生成模型与判别模型
判别模型:学习决策函数或者条件概率分布。直观来说学习的是类别之间的最优分隔面,反映的是不同类数据之间的差异优点:直接面对预测,准确率往往很高。由于直接学习的是p(y|x)或者f(x),可以对数据进行各种程度的抽象,定义特征并使用特征,从而简化学习过程。缺点:不能反应训练数据本身的特性模型:K 近邻、感知机(神经网络)、决策树、逻辑斯蒂回归、最大熵模型、SVM、提升方法、条件随机场生成...原创 2019-04-10 16:16:02 · 249 阅读 · 0 评论 -
抽蓝球红球,蓝结束红放回继续,平均结束游戏抽取次
假设蓝x个,红y个,那么p1=xx+y,p2=yx+yp_{1}=\frac{x}{x+y},p_{2}=\frac{y}{x+y}p1=x+yx,p2=x+yy次数为1∗p1+2∗p2∗p1+...+n∗p2n−1p11*p_{1}+2*p_{2}*p_{1}+...+n*p_{2}^{n-1}p_{1}1∗p1+2∗p2∗p1+...+n∗p2n−1p1n趋向于无穷大E=...原创 2019-04-17 11:51:52 · 1914 阅读 · 1 评论 -
机器学习面试必知:XGBoost简介
原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树,只是在决策树构建完成后再进行剪枝。而XGBoost在决策树构建阶段就加入了正则项即Lt=∑il(yi,Ft−1(xi)+ft(xi))+Ω(ft)L_{t}=\sum_{i}l(y_{i},F_{t-1}(x_{i})+f_{t}(x_{i}))+\Omega(f_{t})Lt=i∑l(yi,Ft−1(xi)+ft(xi))...原创 2019-03-06 14:41:04 · 969 阅读 · 0 评论 -
机器学习面试必知:决策树
决策树(decision tree)是一种基本的分类与回归方法,主要优点时模型具有可读性,分类速度快,学习时利用训练数据根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。决策树学习的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化。确定了损失函数后,学习问题就变...原创 2019-03-03 18:38:24 · 785 阅读 · 0 评论 -
机器学习面试必知:知识点大全(持续更新中)
牛客网原链接知识整理–机器学习知识点整理这里做了一点小改动一、机器学习单模型1、LR的损失函数的公式和函数2、LR的推导过程3、LR如何解决共线性,为什么深度学习不强调4、LR如何防止过拟合5、LR分布式训练怎么做6、LR为什么使用Sigmoid7、SVM的损失函数8、SVM的推导过程9、SVM怎么扩展到多分类问题10、SVM分类泛化,SVM回归泛化11、LR和SVM...转载 2019-03-05 14:46:25 · 1316 阅读 · 1 评论 -
机器学习面试必知:SVM和LR的关系
面试中经常会被问到的问题与线性可分的情形一样,对于线性不可分的概率分布,我们可以用最小化正则化的误差函数来重新表示SVM。这也使得我们能够强调与logistic回归模型之间的相似性和差别。我们已经看到对于边缘边界正确的一侧数据点,即满足yntn≥1y_{n}t_{n}\geq 1yntn≥1。对于其余的数据点ξn=1−yntn>0\xi_{n}=1-y_{n}t_{n}&am...原创 2019-02-27 15:08:49 · 1183 阅读 · 0 评论 -
机器学习面试必知:SVM中解决泛化问题
在前面SVM一文中,我们解得的支持向量机在原始空间中是对训练数据能精确划分的如下图所示。可想而知,有大概率会出现过拟合的问题。这样的支持向量机的泛化能力较差。因此我们需要一种方式修改支持向量机,允许一些训练数据点被误分类,从而获得一个更好的泛化能力。我们允许数据点在边缘边界的错误侧,同时增加一个惩罚项,这个惩罚项随着与决策边界的距离的增大而增大。我们令这个惩罚项是距离的线性函数,为了实现它我们引...原创 2019-02-27 21:04:09 · 3853 阅读 · 0 评论 -
机器学习面试必知:一文理解支持向量机(SVM)
1. 首先我们要是决策距离最大化我们先来求点xxx到一个超平面f(x)=wTx+bf(x)=w^{T}x+bf(x)=wTx+b的距离:假设有一点xxx,垂直投影到超平面上对应点为x0x_{0}x0, www是垂直于超平面的一个向量, γ\gammaγ为样本xxx到超平面的距离。易知x=x0+γw∣∣w∣∣x=x_{0}+\gamma \frac{w}{||w||}x=x0+γ∣∣w∣...原创 2019-02-23 20:23:10 · 690 阅读 · 0 评论 -
机器学习面试必知:SVM回归的泛化
从 机器学习面试必知:SVM和LR的关系 一文中,我们可以看到SVM相比于LR的优势在于能产生稀疏解。现在把SVM应用到回归问题中,同时保持它的稀疏性。在简单的线性回归模型中,我们最小化一个正则化的误差函数12∑n=1N(yn−tn)2+λ2∣∣w∣∣2\frac{1}{2}\sum_{n=1}^{N}(y_{n}-t_{n})^{2}+\frac{\lambda}{2}||w||^{2}21...原创 2019-02-28 21:30:14 · 959 阅读 · 0 评论 -
机器学习面试必知:最大方差理论和最小平方误差理论下的PCA(主成分分析)的公式推导
最大方差理论PCA(主成分分析),旨在找到数据中的主成分,并利用这些主成分表征原始数据从而达到降维的目的。在信号处理领域,我们认为信号具有较大方差,而噪声具有较小方差。因此我们不难引出PCA的目标即最大化投影方差,也就是让数据在主轴上投影的方差最大(在我们假设中方差最大的有用信号最大化减少了噪声的影响)。对于给定的一组数据点{v1,...,vn}\left\{v_{1},...,v_{n}...原创 2019-02-25 16:13:10 · 3395 阅读 · 0 评论 -
机器学习面试必知:LR中的共线性问题和解决方法
多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树或者朴素贝叶斯,前者的建模过程时逐渐递进,每次都只有一个变量参与,这种机制含有抗多重共线性干扰的功能;后者假设变量之间是相互独立的。但对于回归算法来说,都要同时考虑多个预测因子,因此多重共线性不可避免。我们先来看共线性的原理,假设k个自变量的多元线性回归模型:y=θ0+θ1x1+...+θkxk=θTx+ϵy=\th...原创 2019-03-01 13:43:10 · 4125 阅读 · 2 评论 -
机器学习面试必知:最小平方和LDA(Fisher线性判别分析)的关系
PCA无监督,LDA有监督在PCA一文中,我们简单地提到了如果是二维空间中的样本点,那么我们就是求解出一条直线使得样本投影到该直线上的方差最大。从回归的角度来看其实就是求解出一个线性函数来拟合样本点集合。所以我们可以从维度降低的角度来考察线性分类器。考虑二分类的情形,假设我们有一个D维输入向量xxx,然后我们使用y=wTxy=w^{T}xy=wTx投影到一维。我们设置一个阈值,有N1N_...原创 2019-02-25 20:22:13 · 1594 阅读 · 1 评论 -
机器学习面试必知:高斯混合模型GMM和期望最大化EM算法
通过将更基本的概率分布(例如高斯分布)进行线性组合的这样的叠加方法,可以被形式化为概率模型,被称为混合模型。通过使用足够多的高斯分布,并且调节它们的均值和方差以及线性组合的系数,几乎所有的连续概率密度都能以任意的精度去近似。我们考虑K个高斯概率密度的叠加,形式为p(x)=∑k=1KπkN(x∣uk,Σk)p(x)=\sum_{k=1}^{K}\pi_{k}N(x|u_{k},\Sigma_{...原创 2019-03-01 17:54:23 · 2052 阅读 · 0 评论 -
机器学习面试必知:GBDT
Freidman提出了梯度提升算法,利用最速下降法的近似方法,关键是利用损失函数的负梯度在当前模型的值−[∂L(y,f(xi))∂f(xi)]f(x)=fm−1(x)-[\frac{\partial L(y,f(x_{i}))}{\partial f(x_{i})}]_{f(x)=f_{m-1}(x)}−[∂f(xi)∂L(y,f(xi))]f(x)=fm−1(x)作为回归问题提升树算...原创 2019-03-05 14:22:17 · 829 阅读 · 0 评论 -
机器学习面试必知:SVM怎么扩展到多分类问题
1.类似建立二叉树的过程,每个叶子结点就是一个类别,这样成功地将二分类转化为多分类2.一对剩余方法,将一类标记为正样本其余的类都标记为负样本来训练SVM,这样不断迭代进行就能转换为多分类问题。...原创 2019-04-20 10:41:44 · 1168 阅读 · 0 评论