拾贰里-优快云博客

原创 Spark计算模型RDD

RDD概念及特征： RDD（Resilient Distributed Daraset）叫做弹性分布式数据集，是spark中最基本的数据抽象，它代表一个不可变、可分区，里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错，位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将数据还存在内存中，后续的查询能够重用这些数据，这极大的提升了查询速度。弹性分布式数据集合，并且是sp...

2020-03-22 16:41:12 411

原创随机森林和Adaboos

随机森林：随机森林是利用随即的方式将许多决策树结合成一个森林，每个决策树在分类的时候决定测试样本的最终类别。在Bagging策略的基础上进行修改后的一种算法从样本集中用bootstrap采样选出n个样本；从所有属性中随机选择k个属性，选择出最佳分割属性作为节点创建决策树；重复以上两步m次，即建立m可决策树；这m个决策树形成随机森林，通过投票表决结果决定数据属于哪一类； RF算法在实际...

2020-03-15 18:22:17 598

原创 spark性能优化

1.分配更多的资源：它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节最优的资源配置；在这个基础上，如果说你的spark作业，能够分配的资源达到了你的能力范围的顶端之后，无法在分配更多的资源了，公司资源有限，那么才是考虑去...

2020-03-08 19:14:40 219

原创关于spark-①

spark概念： spark是统一的分布式大数据分析引擎，spark能够适应多种计算场景，spark能够分析数据，但是没有存储。一般线上的spark数据来源（HDFS，hive，kafka，flume，日志文件，关系型数据库，nosql数据库）。spark出口（hdfs，hive，redise，关系型数据库，nosql数据库）。spark一般情况是以集群模式存在，架构：master/slaver（...

2020-02-26 21:38:15 535

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Spark计算模型RDD

原创 随机森林和Adaboos

原创 spark性能优化

原创 关于spark-①

空空如也

空空如也

原创随机森林和Adaboos

原创关于spark-①