- 博客(3)
- 收藏
- 关注
原创 Cache与persist区别
Cache底层调用的是persist方法,存储等级为memory only Persist与Cache的主要区别是persist可自定义存储级别StorageLevel。Cache只使用memory only。 MEMORY_ONLY:只存在内存中; DISK_ONLY:只存在磁盘中; MYMORY_AND_DISK:先存在内存中,内存不够的话存入到磁盘中; OFF_HEAP:存在堆外内存中; 总...
2020-03-22 23:12:31
793
原创 Adboost与随机森林的对比
首先 我们看一下Boosting思想与Bagging思想 随机森林是在bagging模型下的 而Adboost是在boosting模型下的 Boosting是通过串行地构造多个个体分类器,然后以一定的方式将他们组合成一个强学习器 Bagging是Bootstrap Aggregating的缩写,通过并行地构造多个个体分类器,然后以一定的方式将他们组合成一个强学习器 这两个的主要区别就是 一个是串行...
2020-03-15 21:11:26
340
原创 Spark性能调优
开发调优 最基本的Spark性能优化,就是要优化你的代码。Spark中rdd内部的转换关系是一个DAG(有向无环图),只有出发了action 算子才开始计算。开始可以画出计算pipeline,写得多了脑子自然会形成计算的pipeline,在开发过程中,时时刻刻都要注意一些性能优化的基本原则。 原则一:避免创建重复的RDD,尽可能复用同一个RDD 对于同一份数据不要创建多个RDD,对不同的数据执行算...
2020-03-10 08:53:52
222
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人