
Spark
minchowang
这个作者很懒,什么都没留下…
展开
-
Spark on yarn 源码分析
sparksubmit阶段首先运行sparksubmit脚本,找到SparkSubmit类,运行main方法,然后进入submit方法里,准备好提交环境(prepareSubmitEnvironment(args)),得到““org.apache.spark.deploy.yarn.Client””,运行runMain(childArgs, childClasspath, sysProps, childMainClass, args.verbose),反射Clinet类运行main方法在Clien原创 2020-05-22 21:43:54 · 578 阅读 · 0 评论 -
Hive On Spark编译
环境说明:versionCentOS6.8JDK1.8Maven3.6.3Scala2.11.8Hadoop2.7.2Hive2.3.6Spark2.1.1源码编译Hive和Spark的版本兼容性https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3a+Getting+Started1.下载Spark源码包:https://archive.apac原创 2020-05-15 00:14:11 · 789 阅读 · 0 评论 -
Spark 常用算子
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Action 行动算子:这类算子会触发 ...原创 2020-05-11 20:18:16 · 632 阅读 · 0 评论 -
Spark 项目导入Hbase依赖后,查看spark监控页面报错。WARN HttpChannel: / javax.servlet.http.HttpServletRequest.isAsync
错误如下:当我们导入Hbase依赖后,再次打开localhost:4040页面时,控制台打印信息如下:错误原因:一般由 jetty servlet版本冲突 跟HttpServlet包中的servlet版本冲突解决方案: <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</art原创 2020-05-10 15:30:40 · 337 阅读 · 0 评论 -
Spark On Yarn集群搭建
Spark 客户端可以直接连接 Yarn,不需要额外构建Spark集群。有 client 和 cluster 两种模式,主要区别在于:Driver 程序的运行节点不同。client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出cluster:Driver程序运行在由 RM(ResourceManager)启动的 AM(AplicationMaster)上, 适用...原创 2020-05-05 12:57:24 · 459 阅读 · 0 评论