
机器学习
chduan_10
这个作者很懒,什么都没留下…
展开
-
机器学习算法的调试 —— 梯度检验(Gradient Checking)
反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug 时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练(for(i=1; i 被漏写为 for(i=1; i),再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,仅从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我转载 2017-06-29 19:37:58 · 280 阅读 · 0 评论 -
机器学习中的目标函数、损失函数、代价函数有什么区别?
作者:zzanswer链接:https://www.zhihu.com/question/52398145/answer/209358209来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。首先给出结论:损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)。举个例子解释一下...转载 2018-03-17 10:32:11 · 879 阅读 · 0 评论 -
[Machine Learning & Algorithm] 随机森林(Random Forest)
阅读目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的...转载 2018-03-18 12:14:56 · 459 阅读 · 0 评论 -
使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2018-03-19 18:13:12 · 143 阅读 · 0 评论 -
CTR预估算法之FM, FFM, DeepFM及实践
目录目录CTR预估综述Factorization Machines(FM)算法原理代码实现Field-aware Factorization Machines(FFM)算法原理代码实现Deep FM算法原理代码实现参考文献CTR预估综述点击率(Click through rate)是点击特定链接的用户与查看页面,电子邮件或广告的总用户数量之比。 它通常用于衡量某个网站的在线广告活动是否成功,以及电...转载 2018-04-21 09:12:19 · 1150 阅读 · 0 评论 -
对AUC的重新理解
以前光看书,知道AUC是对ROC曲线下面积的计算,工作后才知道AUC常用来衡量模型结果好坏,而且AUC的物理意义是任取一个正例和任取一个负例,正例排序在负例之前的概率。但刚听到这种说法的时候,并不理解,于是寻找了一下解释资料。1 AUC,ROC简单解释 ROC(Receiver Operating Characteristic)曲线的横坐标为FPR(假正率),纵坐标为TPR(真正率),以下为关于F...转载 2018-06-05 20:19:54 · 1169 阅读 · 0 评论 -
SVR支持向量机回归
回归和分类从某种意义上讲,本质上是一回事。SVM分类,就是找到一个平面,让两个分类集合的支持向量或者所有的数据(LSSVM)离分类平面最远;SVR回归,就是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。 我们来推导一下SVR。根据支持向量机二分类博客所述,数据集合归一化后,某个元素到回归平面的距离为r=d(x)−g(x)r=d(x)−g(x)。另外,由于数据不可能都在回归平面上,距...转载 2018-06-08 16:44:36 · 5565 阅读 · 0 评论 -
解决分类样本不平衡问题
样本不平衡会导致出现以下的问题: (1)少数类所包含的信息很有限,难以确定少数类数据的分布,即难以在内部挖掘规律,造成少数类的识别率低; (2)很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息,一些跨空间的数据规律就不能被挖掘出来。 (3)不恰当的归纳偏置系统在存在不确定时往往倾向于把样本...转载 2018-07-31 22:06:59 · 2085 阅读 · 0 评论 -
机器学习中正则化项L1和L2的直观理解
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2...转载 2018-08-01 11:24:58 · 281 阅读 · 0 评论 -
5个回归损失函数
大数据文摘出品编译:Apricock、睡不着的iris、JonyKai、钱天培“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么?这些可都是机器学习大牛最常用的回归损失函数哦!机器学习中所有的算法都需要最大化或最小化一个函数,这个函数被称为“目标函数”。其中,我们一...转载 2018-08-28 09:30:23 · 1773 阅读 · 1 评论 -
机器学习中常见的几种损失函数
通常机器学习每一个算法中都会有一个目标函数,算法的求解过程是通过对这个目标函数优化的过程。在分类或者回归问题中,通常使用损失函数(代价函数)作为其目标函数。损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的算法使用的损失函数不一样。 损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险...转载 2018-08-28 09:34:31 · 2242 阅读 · 0 评论 -
Gradient Boosted Decision Trees(GBDT)详解
感受 GBDT集成方法的一种,就是根据每次剩余的残差,即损失函数的值。在残差减少的方向上建立一个新的模型的方法,直到达到一定拟合精度后停止。我找了一个相关的例子来帮助理解。本文结合了多篇博客和书,试图完整介绍GBDT的内容,欢迎大家来指正。 介绍 GBDT是一个应用很广泛的算法,可以用来做分类、回归。GBDT这个算法还有其它名字,如MART(Multiple Additiv...转载 2018-09-11 22:03:29 · 404 阅读 · 0 评论 -
xgboost原理
版权声明:如需转载,请注明出处http://blog.youkuaiyun.com/a819825294 http://blog.youkuaiyun.com/a819825294/article/details/51206410目录(?)[+]文章内容可能会相对比较多,读者可以点击上方目录,直接阅读自己感兴趣的章节。1.序 距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboos...转载 2018-03-17 09:25:18 · 235 阅读 · 0 评论 -
梯度提升树GBDT原理
版权声明:如需转载,请注明出处http://blog.youkuaiyun.com/a819825294 http://blog.youkuaiyun.com/a819825294/article/details/51188740目录(?)[-]模型学习过程算法GBDT并行1.模型提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决...转载 2018-03-17 09:24:09 · 279 阅读 · 0 评论 -
PCA(Principal Component Analysis)数学分析
@author:Donald-Hu @theme:PCA数学分析 @time:2016/8/9PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原转载 2018-03-01 18:51:00 · 388 阅读 · 0 评论 -
正则化的最小二乘法
在单元 (unimodal) 目标变量的线性模型中,MLE (Maximum likelihood) 和 Least Squares (最小二乘法) 是常用的两种估计模型参数向量 W 的解法。他们都有个共同点,求解得到的参数向量 W 能够保证估计的目标值和观测得到的目标值之间的误差最小。但是单纯的考虑误差最小化得到的模型会有过拟合现象,也就是预测效果会很差。为了解决这个问题,在目标函数中往往都会考转载 2017-09-19 10:33:18 · 12431 阅读 · 0 评论 -
k-折交叉验证
k-折交叉验证(k-fold crossValidation):在机器学习中,将数据集A分为训练集(training set)B和测试集(test set)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。在matlab中,可以利用:indices=crossvalind('Kfol转载 2017-09-01 20:53:14 · 438 阅读 · 0 评论 -
Softmax回归
Contents[hide]1简介2代价函数3Softmax回归模型参数化的特点4权重衰减5Softmax回归与Logistic 回归的关系6Softmax 回归 vs. k 个二元分类器7中英文对照8中文译者简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以转载 2017-09-20 10:15:21 · 309 阅读 · 0 评论 -
牛顿下降法和梯度下降法(最速下降法)的速度的比较
“牛顿下降法和梯度下降法在机器学习和自适应滤波中的都很重要,本质上是为了寻找极值点的位置。但是收敛的速度不同。 本文中就两种方法来探究一下,哪种收敛方法速度快“牛顿下降法的递推公式: xn+1=xn−f′(xn)/f′′(xn)梯度下降算法的递推公式: xn+1=xn−μ∗f′(xn)解释一下图是两种方法的图示表示,红色为牛顿下降法,绿色为梯度下转载 2017-09-22 16:41:40 · 796 阅读 · 0 评论 -
理解机器学习中的偏差与方差
学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).首先抛开机器学习的范畴, 从字面上来看待这两个词:偏差.这里的偏指的是 偏离 , 那转载 2017-11-10 16:02:05 · 392 阅读 · 0 评论 -
XGBoost-Python完全调参指南-参数解释篇
在analytics vidhya上看到一篇,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/这篇文章按照原文的分节,共分为三个部转载 2017-11-10 16:04:46 · 282 阅读 · 0 评论 -
GBDT:梯度提升决策树
综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。转载 2017-11-10 17:08:29 · 345 阅读 · 0 评论 -
数据比赛大杀器----模型融合(stacking&blending)
参考文献链接英文版本 http://mlwave.com/kaggle-ensembling-guide/ 这里写链接内容这个是上面英文翻译过来的汉语翻译版本 kaggle比赛集成指南 http://m.blog.youkuaiyun.com/article/details?id=53054686搜狗比赛第五名的stacking思路 http://prozh转载 2017-11-20 12:43:30 · 597 阅读 · 0 评论 -
通俗理解条件熵
1 信息熵以及引出条件熵我们首先知道信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。公式如下:我们的条件熵的定义是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望这个还是比较抽象,下面我们解释一下:设有随机变量(X,Y),其联合概率分布为 条件熵H(Y|X)表示在已知随机变量X的转载 2018-01-11 16:10:55 · 1163 阅读 · 0 评论 -
利用GBDT模型构造新特征
实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话:特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已。本文中我将介绍Facebook最近发表的利用GBDT模型构造新特征的方法1。论文的思想很简单,就是先用已有特征训练GBDT模型,然后利用GBDT模型学习到的转载 2018-01-02 22:29:24 · 565 阅读 · 0 评论 -
GBDT几问
GBDT几问本篇文章主要介绍GBDT基本原理以及一些细节性的东西,这些东西更多在面试使用,或者对于二次创新使用,主要内容有以下几个方面: GBDT几问 Boosting算法Bagging算法介绍 GBDT基本原理 GBDT如何正则化 GBDT分裂规则 GBDT的“梯度提升”体现在那个阶段 GBDT如何做特征选择 GBDT为什么使用cart回...转载 2018-09-11 22:04:13 · 3958 阅读 · 0 评论