
Spark
RivenDong
这个作者很懒,什么都没留下…
展开
-
Spark Streaming示例(九)
文章目录1. Spark Streaming中的离散流特征2. Spark Streaming的应用场景1. Spark Streaming中的离散流特征2. Spark Streaming的应用场景原创 2020-07-30 16:20:00 · 249 阅读 · 0 评论 -
Spark SQL 操作HDFS的三种方式(八)
文章目录1. 创建测试数据2. IDEA配置3. 实例代码3.1 通过反射方式将RDD转换成DataFrame3.2 通过创建Schema自定义格式的方式3.3 通过读取json文件的方式创建4. 注意1. 创建测试数据vi users1 lhd 130 1997-03-022 gdh 180 1996-08-243 cjb 160 1997-07-164 ymj 98 1997-06-065 syz 99 1996-02-286 hl 120 1995-01-03hadoop fs原创 2020-07-27 16:50:17 · 2815 阅读 · 0 评论 -
Spark SQL 操作Hive(七)
文章目录1. Spark SQL的功能2. Spark SQL操作Hive1. Spark SQL的功能Spark SQL可操作Hive、HBase、MySQL、Oracle、DB2等中的数据提升了数据仓库的计算能力和计算复杂度基于Spark SQL推出的DataFrame可实现数据仓库直接使用机器学习、图计算等复杂算法库深度数据挖掘数据仓库Spark SQL是数据仓库、数据挖掘及其科学计算和分析引擎工具2. Spark SQL操作Hive...原创 2020-07-22 16:19:48 · 389 阅读 · 0 评论 -
基于IDEA开发Spark应用程序(六)
文章目录1. 环境配置2. 基于Scala语言的本地应用开发3. 基于Scala语言的集群应用开发4. 基于Java语言的本地应用开发5. 基于Java语言的集群应用开发1. 环境配置IDEA 2019Maven项目pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org原创 2020-07-13 17:39:38 · 597 阅读 · 0 评论 -
Spark基于YARN调度模式(五)
Spark基于YARN的调度模式由于YARN模式下不需要Mesos模式下的所有Master进程和所有Worker进程,需首先关闭这些进程./stop-slaves.sh./stop-slaves.sh启动YARN集群start-yarn.sh创建测试文件vi wordcount.txthdfs dfs -put wordcount.txt wordcount.txt运行spark-shell在yarn模式下运行spark-shell需要指定–master y原创 2020-07-13 11:46:02 · 1018 阅读 · 0 评论 -
Spark submit 提交任务(四)
文章目录Spark基于应用作业的操作Spark操作的基础命令与开发工具介绍Spark基于应用作业的操作Spark框架可借助spark-submit来提交一个编写好的Job应用到集群,从而完成Spark应用的分析和处理,这通常是生产场景中使用的一种操作方式。spark-submit --class org.apache.spark.examples.JavaSparkPi --master spark://master002:7077 ../examples/jars/spark-examples_2.原创 2020-07-08 15:51:11 · 1231 阅读 · 0 评论 -
Spark RDD(三)
文章目录1. 前言2. 数据源3. 调度器4. RDD 编程接口4.1 数据源自于集合的接口4.2 数据源自于RDD的接口4.3 数据源自于DataFrame的接口5. RDD操作5.1 Spark基于命令行的操作5.2 Spark基于应用作业的操作5.3 Spark操作的基础命令与开发工具介绍5.4 Spark基于YARN的调度模式5.5 Spark基于Scala语言的本地应用开发5.6 Spa...原创 2020-07-07 16:00:50 · 763 阅读 · 0 评论 -
Spark框架的基本原理(二)
文章目录原创 2019-10-24 22:34:48 · 1033 阅读 · 0 评论 -
Hadoop+Spark+Zookeeper高可用集群搭建(五)
文章目录1. 前言2. 准备工作3. 配置Spark系统变量3.1 配置Spark 和 Scala 系统变量3.2 配置Spark环境变量3.3 配置Spark工作节点4. 启动Spark集群4.1 在三个Slave节点上启动ZK集群4.2 在master001上启动HDFS集群4.3 在master001上启动Spark集群的Master节点4.4 在master002上启动Spark集群的Ma...原创 2019-10-24 16:24:27 · 1813 阅读 · 0 评论 -
Spark概述(一)
文章目录1. Spark Overview2. Spark框架原理3. Spark大数据处理4. RDD数据集4.1 迭代模式的自动切换4.2 执行步骤的可恢复性4.3 故障作业的高可靠性4.4 故障数据的高度容错5. Spark子系统5.1 Spark SQL5.2 Spark Streaming5.3 Spark MLlib5.4 其他子系统1. Spark OverviewApache ...原创 2019-10-24 11:30:55 · 2192 阅读 · 0 评论