
Spark
草莓味的风
keep clam and code on
展开
-
【Spark】(一)Linux上的环境搭建
首先,需要知道Spark的几种运行模式:1. Local:本地模式,不涉及分布式,用线程模拟分布式2. standalone:独立模式,伪分布式3. onyarn:完全分布式 下面又有两种部署模式:cluster集群模式和client客户端模式 Driver:任务提交之后开启的第一个进程。 两种模式的区别在于:客户端模式下在哪台机器提交就在哪台机器启动Dr...原创 2019-01-17 15:42:21 · 624 阅读 · 0 评论 -
【Spark】解决配置client模式时出现异常:Yarn application has already ended!
Exception in thread "main" org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. at org.apache.spark.scheduler...原创 2019-01-17 15:12:13 · 4481 阅读 · 2 评论 -
【Spark】(一)Windows上集成开发环境的搭建
仍然是使用IDEA,确保已正确安装Scala。添加Spark的jar包选择spark/jars中的所有jar包,—>OK完成后就可以写Spark代码啦~创建的依然是Scala Class。 ...原创 2019-01-17 16:06:33 · 187 阅读 · 0 评论 -
【Spark】(二)RDD和算子
一、RDD1.1 什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark计算过程的核心,是spark计算过程中的瞬时结果,下一个RDD依赖于上一个RDD。它代表一个不可变、可分区、里面的元素可并行计算的集合。数据集就是由许多数据组成的集合了RDD本身并不是分布式的,里面的数据是分布式的。那么,弹性是什么...原创 2019-01-19 21:21:43 · 454 阅读 · 0 评论 -
【Spark】(三)持久化
1 为什么需要持久化?在Spark中,RDD采用惰性求值的机制,每次遇到行动操作,都会从头开始执行计算。如果整个Spark程序中只有一次行动操作,这当然不会有什么问题。但是在一些情形下,我们需要多次调用不同的行动操作,这就意味着,每次调用行动操作,都会触发一次从头开始的计算。这对于迭代计算而言,代价是很大的,迭代计算经常需要多次重复使用同一组数据,可以通过持久化(缓存)机制避免这种重复计算...原创 2019-01-22 15:28:01 · 778 阅读 · 0 评论 -
【Linux】CentOS下安装Spark(standalone模式)
一、JDK的安装参考:https://blog.youkuaiyun.com/hr786250678/article/details/84998895二、HADOOP的安装参考:https://blog.youkuaiyun.com/hr786250678/article/details/89574478三、Scala的安装1 上传压缩包到虚拟机(master,slave1),解压tar -zx...原创 2019-04-30 08:26:59 · 722 阅读 · 0 评论 -
【解决】Spark启动后WebUI看不到Workers(Alive workers:0)
Work启动,但Http中没有Worker节点:说明Slave节点与Master的通讯出现问题,或Slave节点无法向Master注册,导致虽然Woker启动但不能在Master中找到。搜了一堆,被这个问题折磨了一天,总结一下主要是下面几个解决办法1. spark-env.sh 文件中需要显式地设置一些环境变量,不用系统默认值参考:https://blog.youkuaiyun.com/qq118...原创 2019-04-27 21:16:46 · 7895 阅读 · 2 评论 -
IDEA将spark程序打成jar包上传到集群运行
一、基于IDEA插件File->Project Structure->Artifacts->"+"->Jars->From modules with dependencies然后Build->Build Artifacts->Build生成的jar包在左侧目录结构中可以看到(这个生成位置...原创 2019-04-30 09:04:08 · 2400 阅读 · 0 评论