
spark
learn_tech
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark之本地模式与集群模式
原文:https://blog.youkuaiyun.com/qq_33689414/article/details/802326051.spark-shell的本地模式和集群模式1.1 local本地模式直接启动spark-shell命令窗口脚本启动后,会生成一个SparkContext的上下文对象sc。并且启动的是本地模式(local)。如图:1.1.1 加载本地数据sc.t...转载 2018-11-02 14:16:19 · 6756 阅读 · 2 评论 -
如何优雅的关闭基于yarn的SparkStreaming程序
转载地址:https://blog.youkuaiyun.com/c880420/article/details/80886699yarn application --listyarn application -kill application_1518954379926_0063转载 2018-11-29 10:06:39 · 1116 阅读 · 0 评论 -
Spark 使用sortByKey进行二次排序
转载地址:https://blog.youkuaiyun.com/dwb1015/article/details/52207945Spark的sortByKey API允许自定义排序规则,这样就可以进行自定义的二次排序、三次排序等等。 先来看一下sortByKey的源码实现:def sortByKey(): JavaPairRDD[K, V] = sortByKey(true)def sort...转载 2018-12-06 09:28:32 · 723 阅读 · 0 评论 -
Spark 序列化问题全解
转载地址:https://blog.youkuaiyun.com/JIESA/article/details/79996053 https://blog.youkuaiyun.com/weixin_42653621/article/details/82534820在Spark应用开发中,很容易出现如下报错:org.apache.spark.SparkException: T...转载 2018-12-19 16:19:25 · 3978 阅读 · 0 评论 -
Spark Streaming-Checkpoint机制
转载地址:https://blog.youkuaiyun.com/anbang713/article/details/82047980一 概述每一个Spark Streaming应用,正常来说都是要7 * 24小时运转的,这就是实时计算程序的特点。因为要持续不断的对数据进行计算。因此对实时计算应用的要求,应该是必须要能够对与应用程序逻辑无关的失败,进行容错。如果要实现这个目标,Spark Stre...转载 2019-01-16 17:03:47 · 509 阅读 · 1 评论 -
spark checkpoint详解
转载地址:https://www.cnblogs.com/superhedantou/p/9004820.htmlcheckpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复;另外一块是应用在spark streaming中,使用checkp...转载 2019-01-16 17:06:19 · 1997 阅读 · 0 评论