
spark
怡情灬XiaoBai
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark RDD
这里写目录标题一、简介1、并行化集合2、外部数据集二、RDD运行过程1、特性2、工作过程三、RDD操作1、动作算子2、转换算子四、RDD持久化五、RDD共享变量一、简介RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。有两种方法可以用来创建RDD:并行化驱动程序中的现有数据引用外部存储系统中的数据集,例如:共享文件系统,HDFS,HBase或提供Hadoop InputFormat的数据源。1、并行化集合并行化集合原创 2020-10-19 11:18:34 · 390 阅读 · 0 评论 -
Spark SQL原理及常用方法详解
Spark SQL一、Spark SQL基础知识1、Spark SQL简介(1)简单介绍(2)Datasets & DataFrames(3)Spark SQL架构(4)Spark SQL的特点二、入门案例1、案例代码2、SparkSession3、代码分析(1)创建spark Session(2)创建Dataset样例类创建Tuple创建JSON创建RDD创建(3)创建DataframeJson创建样例类创建Tuple创建RDD创建三、SQL操作(常用的操作方法)printSchema()show原创 2020-10-15 10:52:37 · 7618 阅读 · 0 评论 -
转载(RDD转换算子大全)
RDD 中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给 Driver 的动作时,这些转换才会真正运行。这种设计让 Spark 更加有效率地运行。常用的Transformationmap,filter,flatMap,mapPartitions,mapPartitonsWithIndex,sampl...转载 2020-09-23 14:06:57 · 494 阅读 · 0 评论 -
RDD算子大全,动作算子(active,non-lazy),装换算子(transformation,lazy)
动作算子原创 2020-09-23 14:02:17 · 1594 阅读 · 0 评论 -
Spark基础知识(新手小白必备)
Spark1、Spark简介Apache Spark的功能Spark使用1、Spark简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与原创 2020-09-21 17:47:08 · 1522 阅读 · 0 评论 -
Scala中函数的常见问题(Lambda表达式,匿名函数,高阶函数,函数嵌套,柯里化(Currying),隐式函数)
Scala函数1、Scala函数简介2、函数的声明与定义(1)函数声明(2)函数定义(3)调用函数(4)参数操作命名参数参数缺省值(5)参数传递传值调用(call-by-value)传名调用(call-by-name)3、Lambda表达式4、内置的四大函数式接口5、匿名函数6、高阶函数7、函数嵌套7、柯里化(Currying)8、隐式函数(1)隐式参数(2)隐式函数(3)隐式类1、Scala函数简介(1)函数是一组执行的语句。您可以将代码按功能分成一个个单独的函数。 如何在不同函数之间划分你的代码取决原创 2020-09-14 15:25:53 · 1279 阅读 · 0 评论 -
Scala集合函数方法大全(数组常用方法的详细解析)
++:deepheadminscantoIndexedSeq+:diffheadOptionminByscanLefttoIterable /:distinctindexOfmkStringscanRighttoIterator :+dropindexOfSlicenonEmptysegmentLengthtoList:\dropRight indexWhereorElseseqtoMapaddStringdropWhi...原创 2020-09-09 17:46:28 · 5305 阅读 · 0 评论 -
Scala基础知识(小白必备)
ScalaScala概括Scala 简介Scala的特点Scala和java的比较Scala基础语法Scala的关键词Scala 数据类型Scala概括Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。Scala 简介Scala编程语言抓住了很多开原创 2020-09-07 17:11:31 · 739 阅读 · 0 评论