snaillup-优快云博客

相关文章 spark源码分析之随机森林(Random Forest)我们在前面的文章讲过，在spark的实现中，树模型的依赖链是GBDT-> Decision Tree-> Random Forest，前面介绍了最基础的Random Forest的实现，在此基础上我们介绍Decision Tree和GBDT的实现。1. Decision Tree1.1. DT的使用官方给

2017-07-03 16:25:10 3734

原创 spark mllib源码分析之随机森林(Random Forest)（五）

spark随机森林源码分析最后一篇，主要介绍模型的保存、加载，总结spark实现的坑

2017-05-31 14:58:16 2078 1

原创 spark mllib源码分析之随机森林(Random Forest)（四）

spark随机森林源码分析的第四篇，主要介绍node的分裂，也就是主要的训练过程

2017-05-25 11:37:45 2202

原创 spark mllib源码分析之随机森林(Random Forest)（三）

spark 随机森林源码分析的第三篇，主要介绍分裂时使用的一些数据结构和节点选择

2017-05-07 19:16:26 2280

原创 spark mllib源码分析之随机森林(Random Forest)（二）

spark random forest源码分析系列之二，主要介绍特征、样本的处理

2017-04-26 17:52:41 3996

原创组合数

排列组合是高中课程的重要内容，坑爹的计算各种花样百出的排列组合数。最近又遇到了组合，突然想起来刚毕业时，研究过这种方法，甚为巧妙，这里记录下。组合有种应用是在把一堆物品分成两类，应该怎样分，有多少种分法，本文就是针对这种情况。1. 有多少种分法我们假设有k个物品，分别为k(0), …,k(n-1)，则其分为两类可分成以下的情况分成1/(k-1)两类，则为C1kC_k^1分成2/(k-2)两类

2017-04-18 18:56:01 535

原创 spark mllib源码分析之随机森林(Random Forest)（一）

Spark在mllib中实现了tree相关的算法，其基础都是随机森林，本文及后续对RF的源码进行分析，介绍spark在实现过程中使用的一些技巧。如只对其使用感兴趣，则阅读本文就可以了。

2017-04-17 14:43:12 4263

原创分布式数字化编码

在分布式应用中，有时候需要把一些东西，例如cookie，编码成int/long型数字，在这里提供一些思路。 1. 集中式编码类似于单机，将所有cookie重新切分在一起，按次序编码var idnum:Long = 0idrdd.repartition(1).map(oriId => { idnum += 1 (oriId, idnum) }).rep

2017-04-07 15:38:32 1141

原创 spark抽样之蓄水池抽样

spark随机森林的实现中用到了蓄水池抽样，主要是用在特征集抽样中，本文对蓄水池抽样的原理和spark源码进行简单分析。

2017-04-07 11:15:27 2113

原创 Hadoop二次排序

最近在特征开发的过程中，遇到这样的场景，A文件中存储着一些属性（例如文档的ctr），需要将这些属性set到B文件中的文档中，在Hadoop程序设计中，一般是在map中读入文件，然后输出以文档id为key，进入reduce后，先循环遍历value，找到A中的属性值，把B中的文档集记录在List中，然后再循环这个List，把A的属性值set进去，示例代码如下mapper中if(from()=="

2016-12-30 17:50:12 489

原创 Java多线程同步辅助类与异常处理简介

线程同步辅助类在使用Java多线程时，经常需要进行多线程同步，我在写一个用于Hadoop的调度框架中就遇到了类似的问题，调度主线程在发起并行任务后，需要原地等待各子线程执行完毕，才能继续执行，我尝试了两种方法。（1）CyclicBarrier 下面给出示例代码调度线程try{ List<MrJob> paralJobList = jobExeUnit.getMrjobList(

2016-12-30 14:48:30 816

原创 spark（breeze）L-BFGS使用的线搜索实现

上文我们介绍了线搜索及线搜索算法，而spark-breeze使用的正是强Wolfe条件搜索算法

2016-12-13 11:19:33 1480

原创线搜索

之前的文章里我们的重点放在寻找L-BFGS算法的搜索方向上，本文将介绍L-BFGS算法用到的另一个重要算法–线搜索。

2016-12-10 15:44:07 898

原创 spark L-BFGS实现

spark是直接调用的breeze库中的算法，具体是在LBFGS.AppoximateInverseHessian类重载了*运算符

2016-12-08 20:44:25 1747

snaillup的博客

原创基于时间的反向传播算法BPTT（Backpropagation through time）

原创 spark mllib源码分析之OWLQN

原创 spark mllib源码分析之逻辑回归弹性网络ElasticNet（二）

原创 spark mllib源码分析之逻辑回归弹性网络ElasticNet（一）

原创 spark mllib源码分析之二分类逻辑回归的评价指标

原创 spark中的online均值/方差统计

原创 spark mllib源码分析之L-BFGS（二）

原创 spark mllib源码分析之L-BFGS（一）

原创 spark正则化

原创 spark mllib源码分析之DecisionTree与GBDT