
spark
o.o沧海一粟
这个作者很懒,什么都没留下…
展开
-
RDD概念
1 RDD的由来 RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢? Hadoop的MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后 操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。 MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度 下降等。...原创 2019-03-15 20:37:21 · 2309 阅读 · 0 评论 -
Spark几个重要的端口汇总
50070:HDFSwebUI的端口号 8485:journalnode默认的端口号 9000:非高可用访问数rpc端口 8020:高可用访问数据rpc 8088:yarn的webUI的端口号 8080:master的webUI,Tomcat的端口号 7077:spark基于standalone的提交任务的端口号 8081:worker的webUI的端口号 18080:historyServer的...原创 2019-03-20 21:59:34 · 3891 阅读 · 0 评论 -
Spark数据倾斜解决方案
调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜是多么痛?!!! 如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都是一个笑话。数据倾斜是最能体现一个spark大数据工程师水平的性能调优问题。 数据倾斜如果...原创 2019-04-02 11:52:09 · 193 阅读 · 0 评论 -
Spark Shuffle 中 JVM 内存使用及配置内幕详情
引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变,Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道 Spark 到底对 JVM 是怎么使用,你怎么可以很有信心地或者是完全确定地掌握和控制数据的缓存空间呢,所以掌握Spark对JVM的内存使用内幕是至关重要的。很多人对 Spark 的印象是:它是基于内存的,而且可以缓存一大堆数据,...原创 2019-03-29 09:29:44 · 198 阅读 · 0 评论