
Spark
太阳下的兰花草
这个作者很懒,什么都没留下…
展开
-
【Spark】深入浅出理解Spark工作原理
【Spark】深入浅出理解Spark工作原理一、Spark概述1.1 Spark与Hadoop1.2 Spark架构及生态1.3 Spark运行模式二、Spark中的计算模型2.1 Spark中的几个主要基本概念2.2 RDD2.2.1 RDD基本概念2.2.2 RDD依赖关系Partition2.3.1 Partition基本概念2.3.2 Partition数量影响及调整2.4 Job2.5 Stage2.6 Task 一、Spark概述 Spark是UC Berkeley AMP Lab开源的通用分布原创 2020-06-30 22:53:02 · 907 阅读 · 0 评论 -
【Spark】Spark2.x版新特性
【Spark】Spark2.x版新特性一、API二、SQL三、性能四、 Spark Streaming五、Spark MLlib六、Other 一、API 出现新的上下文接口:SparkSession,统一了SQLContext和HiveContext,并且为SparkSession开发了新的流式调用的configuration API 统一了DataFrame和DataSet。DataF...原创 2020-04-14 09:29:32 · 511 阅读 · 0 评论 -
【Spark】解析JSON格式HDFS大文件实践
【Spark】解析JSON格式HDFS大文件实践一、读取HDFS目录并分区二、将HDFS每一行JSON字符串按分区处理成RDD[Row]三、将RDD[Row]转换成DataFrame四、总结 一、读取HDFS目录并分区 其中validPath为目标文件所在的目录,默认读取目录下全部文件,指定读取到RDD后,分区数为8。 mapPartitions为以某一个分区为单位,对该单位内的每一行做操作。 ...原创 2020-03-23 21:34:26 · 772 阅读 · 0 评论 -
【Spark】RDD、DataSet和DataFrame的区别
【Spark】RDD、DataSet和DataFrame的区别一、相同点1. Spark下分布式弹性数据集2. 惰性机制3. 自动缓存运算4. Partitions5. DataFrame和DataSet拥有完全相同的成员函数二、不同点1. RDD2. DataFrame3. DataSet三、三者转换1. DataFrame/Dataset转RDD2. RDD转DataFrame3. RDD转D...原创 2020-03-22 23:27:37 · 381 阅读 · 0 评论 -
Spark Scala编程常用技巧集锦
Spark Scala编程常用技巧集锦一、读写HDFS1. 根据时间戳查找最新有效目录并按行解析JSON(1) 获取FileSystem(2) 根据时间戳获取最新目录(3) 读取最新目录下全部有效数据文件(4) 解析文件中按行存取的JSON,解析后存储到新的DataFrame中(5) 根据dataList创建新的DataFrame 一、读写HDFS 1. 根据时间戳查找最新有效目录并按行解析JSO...原创 2020-03-11 23:29:58 · 303 阅读 · 0 评论