- 博客(4)
- 收藏
- 关注
原创 Spark计算模型RDD
RDD概念及特征: RDD(Resilient Distributed Daraset)叫做弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区,里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将数据还存在内存中,后续的查询能够重用这些数据,这极大的提升了查询速度。 弹性分布式数据集合,并且是sp...
2020-03-22 16:41:12
411
原创 随机森林和Adaboos
随机森林: 随机森林是利用随即的方式将许多决策树结合成一个森林,每个决策树在分类的时候决定测试样本的最终类别。 在Bagging策略的基础上进行修改后的一种算法 从样本集中用bootstrap采样选出n个样本; 从所有属性中随机选择k个属性,选择出最佳分割属性作为节点创建决策树; 重复以上两步m次,即建立m可决策树; 这m个决策树形成随机森林,通过投票表决结果决定数据属于哪一类; RF算法在实际...
2020-03-15 18:22:17
598
原创 spark性能优化
1.分配更多的资源: 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,就是要来调节最优的资源配置;在这个基础上,如果说你的spark作业,能够分配的资源达到了你的能力范围的顶端之后,无法在分配更多的资源了,公司资源有限,那么才是考虑去...
2020-03-08 19:14:40
219
原创 关于spark-①
spark概念: spark是统一的分布式大数据分析引擎,spark能够适应多种计算场景,spark能够分析数据,但是没有存储。一般线上的spark数据来源(HDFS,hive,kafka,flume,日志文件,关系型数据库,nosql数据库)。spark出口(hdfs,hive,redise,关系型数据库,nosql数据库)。spark一般情况是以集群模式存在,架构:master/slaver(...
2020-02-26 21:38:15
535
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅