
SparkCore基础篇
源于若泽数据公开课,哔哩哔哩搜索若泽大数据可见,此乃课程总结
Spark on yarn
这个作者很懒,什么都没留下…
展开
-
Spark基础篇(六) - IDEA开发Spark代码
一、Spark项目开发流程回顾 二、Spark应用程序开发 2.1、Hive下求用户访问量的TopN && Spark-Core实现 2.2、Spark-Core求出平均年龄 2.3、求男女人数、最低、最高身高 三、IDEA整合Maven搭建Spark应用程序 3.1、案例开发&&上传jar包到服务器&&测试数据准备 3.2、结果输出到控制台&&HDFS目录 3.3、处理多个输入文件&&输入文件规则匹配&&原创 2020-06-08 19:45:20 · 679 阅读 · 0 评论 -
Spark基础篇(五) - RDD的高级算子&&IDEA搭建、开发Spark应用程序
一、RDD常用算子再次实验 二、JOIN在Spark Core中的使用 2.1、使用Spark-Core进行词频统计分析 2.2、RDD中subtract && intersection && cartesian使用详解 三、IDEA整合Maven搭建Spark应用程序 一、RDD常用算子再次实验 1、新建一个数据集: scala> val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9)) a: org.apache.spark原创 2020-06-08 12:39:26 · 543 阅读 · 0 评论 -
Spark基础篇(四) - RDD的创建和算子使用
一、SparkContext、SparkConf内容回顾 二、RDD创建的两种方式 2.1、官网对于SparkConf的描述 2.2、spark-submit的最佳实践 三、使用idea构建SparkContext 3.1、spark-shell查看命令帮助&&在客户端中使用 3.2、此处涉及的参数调优点 四、一些思考题 一、SparkContext、SparkConf内容回顾 1、SparkContext、SparkConf、spark-shell中一些常用参数介绍 2、开发程序前原创 2020-06-07 10:48:29 · 705 阅读 · 0 评论 -
Spark基础篇(三) - 创建RDD的前提(先创建SparkContext、SparkConf)
一、RDD五大特性回顾 二、创建Spark应用程序前需要创建SparkContext 2.1、官网对于SparkConf的描述 2.2、spark-submit的最佳实践 三、使用idea构建SparkContext 3.1、spark-shell查看命令帮助&&在客户端中使用 3.2、此处涉及的参数调优点 四、一些思考题 一、RDD五大特性回顾 面试相关: 1、RDD是什么?为什么是分布式?为什么是弹性? 谈一下你对RDD的理解?结合RDD.scala进行理解;RDD五大特性与源码原创 2020-06-04 17:38:18 · 1098 阅读 · 0 评论 -
Spark基础篇(二) - RDD的理论知识
一、什么是RDD 二、RDD的源码定义 三、RDD五大特性详解 四、RDD五大特性和源码的对应关系 五、图解RDD 一、什么是RDD 在Spark中,建议大家面向DF/DS编程,但是不管怎么滴,RDD的理解对于后续使用高级别的API使用会更好。 RDD:Resilent Distributed Dataset,弹性分布式数据集,是Spark中最基本的数据抽象(the basic abstraction in spark) 作用:让开发者大大降低开发分布式应用程序的门槛及提高执行效率。 直接GitHub上查看原创 2020-06-04 15:04:39 · 310 阅读 · 0 评论 -
Spark基础篇(一) - 概述&&源码编译
第一章:MapReduce的局限性–>Spark的产生 1.1 各个框架单独为战&&使用Spark框架做对比 第二章:Spark概述及特点 2.1 四大特性(Speed、Ease Of Use、Generality、Runs Everywhere) 2.2 Spark各个版本介绍 第三章:自定义编译Spark 3.1 Spark目录解读 3.2 在Spark客户端上完成一个wordcount 第一章:MapReduce的局限性–>Spark的产生 繁杂,不管是开发原创 2020-06-03 17:32:50 · 389 阅读 · 0 评论