- 博客(23)
- 收藏
- 关注
原创 基于时间的反向传播算法BPTT(Backpropagation through time)
本文介绍BPTT的原理和实现,是读“Recurrent Neural Networks Tutorial, Part 3 – Backpropagation Through Time and Vanishing Gradients”的读书笔记,代码也来自于这篇文章,加了部分注释。
2017-11-29 19:49:07
6903
1
原创 spark mllib源码分析之逻辑回归弹性网络ElasticNet(二)
我们将介绍spark在ml包中封装的逻辑回归Elastic Net,通过配置可以灵活的同时使用L1和L2,或者其一,同时根据正则化选择使用L-BFGS或OWLQN优化。本文是其中的第二篇,介绍模型训练。
2017-08-14 11:32:34
3136
原创 spark mllib源码分析之逻辑回归弹性网络ElasticNet(一)
我们将介绍spark在ml包中封装的逻辑回归Elastic Net,通过配置可以灵活的同时使用L1和L2,或者其一,同时根据正则化选择使用L-BFGS或OWLQN优化。本文是其中的第一篇,介绍模型训练,预测中使用的一些辅助类。
2017-08-03 19:19:48
3787
原创 spark mllib源码分析之DecisionTree与GBDT
相关文章 spark源码分析之随机森林(Random Forest)我们在前面的文章讲过,在spark的实现中,树模型的依赖链是GBDT-> Decision Tree-> Random Forest,前面介绍了最基础的Random Forest的实现,在此基础上我们介绍Decision Tree和GBDT的实现。1. Decision Tree1.1. DT的使用官方给
2017-07-03 16:25:10
3734
原创 spark mllib源码分析之随机森林(Random Forest)(五)
spark随机森林源码分析最后一篇,主要介绍模型的保存、加载,总结spark实现的坑
2017-05-31 14:58:16
2078
1
原创 spark mllib源码分析之随机森林(Random Forest)(四)
spark随机森林源码分析的第四篇,主要介绍node的分裂,也就是主要的训练过程
2017-05-25 11:37:45
2202
原创 spark mllib源码分析之随机森林(Random Forest)(三)
spark 随机森林源码分析的第三篇,主要介绍分裂时使用的一些数据结构和节点选择
2017-05-07 19:16:26
2280
原创 spark mllib源码分析之随机森林(Random Forest)(二)
spark random forest源码分析系列之二,主要介绍特征、样本的处理
2017-04-26 17:52:41
3996
原创 组合数
排列组合是高中课程的重要内容,坑爹的计算各种花样百出的排列组合数。最近又遇到了组合,突然想起来刚毕业时,研究过这种方法,甚为巧妙,这里记录下。 组合有种应用是在把一堆物品分成两类,应该怎样分,有多少种分法,本文就是针对这种情况。1. 有多少种分法我们假设有k个物品,分别为k(0), …,k(n-1),则其分为两类可分成以下的情况分成1/(k-1)两类,则为C1kC_k^1分成2/(k-2)两类
2017-04-18 18:56:01
535
原创 spark mllib源码分析之随机森林(Random Forest)(一)
Spark在mllib中实现了tree相关的算法,其基础都是随机森林,本文及后续对RF的源码进行分析,介绍spark在实现过程中使用的一些技巧。如只对其使用感兴趣,则阅读本文就可以了。
2017-04-17 14:43:12
4263
原创 分布式数字化编码
在分布式应用中,有时候需要把一些东西,例如cookie,编码成int/long型数字,在这里提供一些思路。 1. 集中式编码 类似于单机,将所有cookie重新切分在一起,按次序编码var idnum:Long = 0idrdd.repartition(1).map(oriId => { idnum += 1 (oriId, idnum) }).rep
2017-04-07 15:38:32
1141
原创 spark抽样之蓄水池抽样
spark随机森林的实现中用到了蓄水池抽样,主要是用在特征集抽样中,本文对蓄水池抽样的原理和spark源码进行简单分析。
2017-04-07 11:15:27
2113
原创 Hadoop二次排序
最近在特征开发的过程中,遇到这样的场景,A文件中存储着一些属性(例如文档的ctr),需要将这些属性set到B文件中的文档中,在Hadoop程序设计中,一般是在map中读入文件,然后输出以文档id为key,进入reduce后,先循环遍历value,找到A中的属性值,把B中的文档集记录在List中,然后再循环这个List,把A的属性值set进去,示例代码如下mapper中if(from()=="
2016-12-30 17:50:12
489
原创 Java多线程同步辅助类与异常处理简介
线程同步辅助类 在使用Java多线程时,经常需要进行多线程同步,我在写一个用于Hadoop的调度框架中就遇到了类似的问题,调度主线程在发起并行任务后,需要原地等待各子线程执行完毕,才能继续执行,我尝试了两种方法。 (1)CyclicBarrier 下面给出示例代码调度线程try{ List<MrJob> paralJobList = jobExeUnit.getMrjobList(
2016-12-30 14:48:30
816
原创 spark(breeze)L-BFGS使用的线搜索实现
上文我们介绍了线搜索及线搜索算法,而spark-breeze使用的正是强Wolfe条件搜索算法
2016-12-13 11:19:33
1480
原创 spark L-BFGS实现
spark是直接调用的breeze库中的算法,具体是在LBFGS.AppoximateInverseHessian类重载了*运算符
2016-12-08 20:44:25
1747
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人