
Spark
文章平均质量分 91
take off now
Boost
展开
-
RDD 特性,代码案例演示讲解
文章目录RDD 特性A list of partitionsA function for computing each splitA list of dependencies on other RDDsOptionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)Optionally, a list of preferred locations to compute each split原创 2021-05-26 16:16:47 · 495 阅读 · 1 评论 -
Spark 部署模式DeployMode 【Cilent模式、Cluster模式】
文章目录简介client 模式cluster 模式俩者区别Spark on YARNYARN Client 模式YARN Cluster 模式MAIN函数代码执行补充简介Spark Application 提交运行时部署模式 Deploy Mode ,表示的是 Driver Program 运行的地方。要么是提交应用的 Client:client ,要么就是集群中从节点(Standalone:Worker,YARN:NodeManager):cluster 。默认值为 client,当在实际的开发环原创 2021-05-10 11:50:34 · 5697 阅读 · 3 评论 -
Spark on YARN 【Spark如何运行在Yarn上,圆周率案例和Wordcount案例提交测试】
文章目录属性配置设置环境变量历史服务MRHistoryServer地址历史服务HistoryServer地址配置依赖Spark Jar包资源检查启动服务提交应用提交运行 PI提交运行 WordCount属性配置将Spark Application提交运行到YARN集群上,至关重要,企业中大多数都是运行在YANR上,文档:http://spark.apache.org/docs/2.4.5/running-on-yarn.html#launching-spark-on-yarn设置环境变量在【$S原创 2021-05-09 14:37:18 · 1683 阅读 · 0 评论 -
Spark程序如何打成、jar包如何提交应用【本地运行测试、jar包本地模式提交、jar包集群模式提交】
文章目录基础环境准备基础配置Maven依赖基础案例演示应用提交应用提交语法jar包提交运行基础环境准备Hadoop 生态集群Spark Standalone集群IDEA 配置基础配置本文使用 IDEA 进行开发首先注意的是目录结构,根据个人分组分类,目录清晰间接即可。本人建议命名、和结构可以仿造 Spark 官方所提供的样式。由于 scala 的编程环境需要 Hadoop、Spark 集群上的配置文件信息,所以需要将资源文件导入到 resources 资源管理目录下。IDEA 功能强大,原创 2021-05-08 17:51:09 · 4734 阅读 · 6 评论 -
Spark 编程案例 WordCount、TopKey【Scala代码实现】
文章目录WordCount 案例案例流程图代码实现TopKey 案例sortByKeysortBytop代码实现WordCount 案例案例流程图首先集群存在单词数据代码实现package cn.kaizi.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 基于Scala语言使用SparkCore编程实现词频统计:WordCount *原创 2021-04-28 20:12:20 · 747 阅读 · 1 评论 -
Spark 本地模式 和 standalone集群模式 高可用(HA)部署以及案例测试
文章目录Spark 本地模式Spark-shellwordcount 程序案例监控页面运行圆周率程序案例Spark Standalone 集群模式Standalone 架构在这里插入图片描述Standalone 集群模式部署解压、环境变量Workers主机名称配置Master、Workers、HistoryServer创建EventLogs存储目录配置Spark应用保存EventLogs设置日志级别分发到集群所有机器启动服务进程创建软链接,方便后期升级ln -s /usr/spark/spark-2.原创 2021-04-03 19:52:30 · 1328 阅读 · 1 评论