
机器学习
文章平均质量分 94
hlang8160
这个作者很懒,什么都没留下…
展开
-
梯度提升树(GBDT)原理小结
1. GBDT概述 GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost,我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同。 在GBDT的迭代中,假设我们前转载 2017-11-19 15:40:07 · 344 阅读 · 0 评论 -
O2O优惠券消费
划分测试集、验证集和训练集(date_received),领取优惠券日期 领取优惠券日期和使用优惠券日期 测试集 dateset3: 20160701~20160731 (113640),features3 from 20160315~20160630 (off_test) 验证集 dateset2: 20160515~201...原创 2018-06-03 16:22:09 · 704 阅读 · 0 评论 -
标注偏置问题(Label Bias Problem)和HMM、MEMM、CRF模型
标注偏置问题(Label Bias Problem)和HMM、MEMM、CRF模型比较<转>转自http://blog.youkuaiyun.com/lskyne/article/details/8669301路径1-1-1-1的概率:0.4*0.45*0.5=0.09路径2-2-2-2的概率:0.018路径1-2-1-2:0.06路径1-1-2-2:0.066由此可得最优路径为1-1-1-1而实...转载 2018-05-15 17:11:44 · 2756 阅读 · 0 评论 -
深度学习(deep learning)优化调参细节(trick)
深度学习中的优化调参细节总结。深度学习中的技巧:初始化参数尽量小一些,这样 softmax 的回归输出更加接近均匀分布,使得刚开始网络并不确信数据属于哪一类;另一方面从数值优化上看我们希望我们的参数具有一致的方差(一致的数量级),这样我们的梯度下降法下降也会更快。同时为了使每一层的激励值保持一定的方差,我们在初始化参数(不包括偏置项)的方差可以与输入神经元的平方根成反比学习率(转载 2017-12-28 11:51:56 · 1084 阅读 · 0 评论 -
全文检索的基本原理
http://blog.youkuaiyun.com/tomorrow_c/article/details/62240383一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢转载 2017-12-18 18:29:22 · 258 阅读 · 0 评论 -
计算TF-IDF
TF-IDF=词频×逆文档频率。假设给定的是一个文档corpous,该文档是由很多条句子组成。即是这样一个矩阵,行为一条句子的长度,列为有多少条句子。//每条句子视为一个文件。TF=一个词在该句子中出现的次数/该句子所有所含的词IDF=所有句子数/包含该词的句子数概念 TF-IDF(term frequency–inverse docum转载 2017-12-18 15:56:26 · 1893 阅读 · 0 评论 -
对CNN中pooling的理解
http://blog.youkuaiyun.com/jiejinquanil/article/details/50042791自己在看论文的过程中结合网上的一些资料,对pooling的一些理解汇总如下,以供参考: 1、pooling主要是在用于图像处理的卷积神经网络中,但随着深层神经网络的发展,pooling相关技术在其他领域,其他结构的神经网络中也越来越受关注。 2、卷积神经网络中转载 2017-12-18 15:19:46 · 671 阅读 · 0 评论 -
深度学习面试题
1、问题:如何优化模型 : 加速收敛, 避免overfit, 提升精度 ..?答案:可以从以下几个参数开始:- batch size effect;- learning rate effect;- weight initialization effect;- batch normalization- drop-out;- model average;- fine-tuning;转载 2017-12-22 15:58:30 · 539 阅读 · 0 评论 -
roc和auc
ROC(接收者特征)曲线是一种比较两个分类器模型的工具。对每一份数据分类器都有一个预测概率。对于二分类问题,f(X)选择阈值t,当分类器预测的概率大于f(X)>=t的该份数据我们就预测为正,而其他数据就预测为负。这里的真正例率和假正例率都是相对于实际的正负而言,真正例率(TPR):实际为真预测为真的概率除以实际为真的概率。假正例率(FPR):实际为负却预测为原创 2017-11-26 11:15:01 · 441 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
http://alexkong.net/2013/06/introduction-to-auc-and-roc/ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC转载 2017-11-26 10:00:20 · 295 阅读 · 0 评论 -
各种优化方法总结比较(sgd/momentum/Nesterov/adagrad/adadelta)
前言这里讨论的优化问题指的是,给定目标函数f(x),我们需要找到一组参数x,使得f(x)的值最小。本文以下内容假设读者已经了解机器学习基本知识,和梯度下降的原理。SGDSGD指stochastic gradient descent,即随机梯度下降。是梯度下降的batch版本。对于训练数据集,我们首先将其分成n个batch,每个batch包含m个样本。我们每次转载 2017-12-10 16:46:02 · 593 阅读 · 0 评论 -
PCA与LDA
PCA是非监督方式,没有类别标签,针对高斯分布的数据有有效。将n维特征降维到k维特征。PCA理论主要包括:方差最大理论和最小平方误差理论。方差最大理论:降维之后的数据分布尽可能方差较大。最小平方误差理论:降维后的数据与原数据的平方误差最小。PCA方法:1.求数据的协方差矩阵2.求协方差矩阵的特征值与特征向量。3.选取特真最大的k个特征所对应的k个特征向量构成特征原创 2017-12-10 22:49:01 · 245 阅读 · 0 评论 -
机器学习性能评估指标
机器学习性能评估指标作者 Charles | 发布于 Mar 20, 2016分类混淆矩阵1True Positive(真正, TP):将正类预测为正类数.True Negative(真负 , TN):将负类预测为负类数.False Positive(假正, FP):将负类预测为正类数 $\rightarrow$ 误报 (Type I error).Fa转载 2017-11-22 19:09:53 · 373 阅读 · 0 评论 -
GBDT的正则化及与XGBOOST区别
1.GBDT的正则化 和Adaboost一样,我们也需要对GBDT进行正则化,防止过拟合。GBDT的正则化主要有三种方式。 第一种是和Adaboost类似的正则化项,即步长(learning rate)。定义为νν,对于前面的弱学习器的迭代 fk(x)=fk−1(x)+hk(x)fk(x)=fk−1(x)+hk(x) 如果我们加上了正则化项,则有转载 2017-11-19 16:23:17 · 8472 阅读 · 0 评论 -
集成学习(Ensemble)
集成学习(Ensemble)目前的集成学习方法分为两类: 1.个体学习器间存在强依赖关系、必须串行生成的序列化方法。 Boosting 2.个体学习器间不存在强依赖关系、可以同时生成的并行化方法。 Bagging RandomForestBoosting算法包括AdaBoost、GBDT、XGBoostBagging算法包括 RandomForestAdaBoostBoosting算法是一原创 2017-11-19 16:28:33 · 770 阅读 · 0 评论 -
xgboost原理
xgboost原理前言:xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid En转载 2017-11-19 17:25:48 · 384 阅读 · 0 评论 -
ROC,AUC,Precision,Recall,F1的介绍与计算
1. 基本概念1.1 ROC与AUCROC曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,ROC曲线称为受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve),AUC(Area Under Curve)是ROC曲线下的面积。在计算ROC...转载 2018-09-03 11:19:10 · 1610 阅读 · 0 评论