
Spark
AaronLwx
这个作者很懒,什么都没留下…
展开
-
单手解Spark之Executor计算执行逻辑
Driver 中的 CoarseGrainedSchedulerBackend 给 CoarseGrainedExecutorBackend 发送 LaunchTask 消息反序列化TaskDescription点击进入decode方法Executor会通过 launchTask执行 Task。点击进入launchTask方法Executor的launchTask...原创 2019-07-02 18:00:43 · 313 阅读 · 0 评论 -
单手解Spark之脚本三剑客源码跟踪
通过上面两张图可以看到,执行start-master.sh脚本,最后会找到org.apache.spark.deploy.master.Master这个类我们接着来看看这个类是啥往下滚,滚到onStart函数我们再来看另外一个脚本start-slave.sh,一样的套路接着我们再来看spark-submit脚本直接看伴生类的main方法...原创 2019-06-27 19:45:39 · 220 阅读 · 0 评论 -
阿里云日志服务 + Flume + Kafka + Spark Streaming--问题排查及解决(其中包含打小胖包的步骤)
项目的最后一步是把IDEA中的程序打包上传到服务器上,并在服务器上面运行,在运行作业的过程中,出现了不少的问题,罗列如下我的jar包路径写错了spark-submit \--master yarn \--name "online_number" \--num-executors 1 \--executor-cores 1 \--executor-memory 2G \--...原创 2019-07-25 12:12:47 · 288 阅读 · 0 评论 -
Spark Streaming使用MySQL存储offset保证Exactly Once语义
1.准备1.1 本次测试的运行环境如下<spark.version>2.3.0</spark.version> <kafka.version>0.10.0-kafka-2.1.1</kafka.version> <scala.version>2.11.8</scala.version> <hadoop.ve...原创 2019-08-02 19:30:51 · 324 阅读 · 0 评论 -
Spark官网翻译--Quick Start
http://spark.apache.org/docs/latest/quick-start.htmlQuick StartSecurity Interactive Analysis with the Spark Shell Basics More on Dataset Operations Caching Self-Contained Applications Wh...原创 2019-08-09 11:20:27 · 363 阅读 · 0 评论 -
单手解Spark之spark-shell
打开spark-shell脚本上图可知,spark-shell脚本会调用spark-submit脚本,我们接着打开spark-submit脚本打开脚本 spark-class脚本 spark-submit在执行 spark-class脚本时,给它增加了参数 SparkSubmit 。 Spark 启动了以 SparkSubmit 为主类的 JVM 进程 。点击进入i...原创 2019-07-02 12:10:03 · 217 阅读 · 0 评论 -
玩玩Spark Cache
没有进行cache时耗时:scala> dataRdd.flatMap(_.split(",")).map((_, 1)).reduceByKey(_+_).countres5: Long = 10加了一个cache,第一次执行scala> dataRdd.flatMap(_.split(",")).map((_, 1)).reduceByKey(...原创 2019-05-16 17:28:45 · 141 阅读 · 0 评论 -
Spark配置启用LZO压缩
假设你已经配好操作系统的LZO以及Hadoop的LZO这里直接去配Spark的LZO,不然Spark提交作业的时候如果涉及到文件操作的话会报错[hadoop@hadoop004 conf]$ pwd/home/hadoop/app/spark-2.3.3-bin-2.6.0-cdh5.7.0/conf[hadoop@hadoop004 conf]$ vim vim spark...原创 2019-05-15 11:43:15 · 2390 阅读 · 0 评论 -
Spark Cluster Mode Overview 翻译
文档地址:http://spark.apache.org/docs/latest/cluster-overview.htmlCluster Mode OverviewThis document gives a short overview of how Spark runs on clusters, to make it easier to understand the componen...原创 2019-05-07 12:15:14 · 290 阅读 · 0 评论 -
Spark源码编译
很遗憾,如果按照官网第3个步骤那个链接去wget的话,会下载失败曲线救国[hadoop@hadoop004 src]$ wget https://archive.apache.org/dist/spark/spark-2.3.3/spark-2.3.3.tgz[hadoop@hadoop004 src]$ wget https://archive.apache.org/di...原创 2019-05-01 19:29:11 · 241 阅读 · 0 评论