
Spark
文章平均质量分 86
angeliacmm
快乐编码,快乐生活。
展开
-
第三章 Spark-Core编程进阶(二)之Spark优化
第三章 Spark-Core编程进阶(二)6.管道命令Spark在RDD上提供pipe方法,可以让我们使用任意一种语言(只要能读写Unix标准流)实现Spark作业中的部分逻辑。pipe方法的源代码如下:/** * Return an RDD created by piping elements to a forked external process. */def pipe(command: String): RDD[String] = withScope { // Simila原创 2021-05-08 22:16:40 · 590 阅读 · 0 评论 -
第三章 Spark-Core编程进阶(一)之高性能操作
第三章 Spark-Core编程进阶(一)1.回顾思考,运行以下案例,看看会产生什么现象?class MyCoolRddApp { val param = 3.14 def work(rdd: RDD[Int]) { rdd.map(x => x + param) .foreach(println) }}object Test{ def main(args:Array[String])={ val conf=new SparkConf con原创 2021-05-08 22:14:32 · 159 阅读 · 0 评论 -
Spark基础篇-Spark-Core核心模型(二)
第二章 Spark-Core核心模型(二)3.分区计算Spark中RDD的计算是以分区为单位的,每个RDD都会实现compute函数以达到这个目的。/** * :: DeveloperApi :: * Implemented by subclasses to compute a given partition. */@DeveloperApidef compute(split: Partition, context: TaskContext): Iterator[T]注意,该属性原创 2021-05-08 22:10:05 · 385 阅读 · 0 评论 -
Spark基础篇-Spark-Core核心模型(一)
第二章 Spark-Core核心模型1.RDD弹性分布式数据集(Resilient Distributed Dataset)是Spark中最基本的数据抽象。不可变(只读)可分区可并行计算自动容错位置感知性调度RDD是Spark的核心抽象模型,本质上是一个抽象类。RDD源代码部分重点代码实现如下:abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transie原创 2021-05-05 22:06:14 · 1056 阅读 · 0 评论 -
Spark基础篇-初识Spark
第一章 初识Spark1.认识SparkSpark是加州大学伯克利分校AMP实验室开发基于内存的通用并行计算框架。思考:已经学习了MapReduce,为什么要学习Spark?1.1并行计算并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是:用多个处理器来协同求解同一问题。注意,其实就是将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算并行计算系统:既可以是专门设原创 2021-05-05 21:47:58 · 448 阅读 · 0 评论 -
Hadoop的shuffle流程图
原创 2021-06-14 21:07:15 · 152 阅读 · 0 评论 -
第五章 Spark-SQL进阶(三)之SQL函数
第五章 Spark-SQL进阶(三)3.SQL函数3.1内置函数3.1.1数学函数*返回类型**姓名(签名)**描述*DOUBLEround(DOUBLE a)返回的舍入BIGINT值a。DOUBLEround(DOUBLE a, INT d)返回a四舍五入到d小数位。DOUBLEbround(DOUBLE a)返回a使用HALF_EVEN舍入模式的舍入后的BIGINT值(从Hive 1.3.0,2.0.0开始)。也称为高斯舍入或银行家舍入。例如:bro原创 2021-05-08 22:52:25 · 1406 阅读 · 0 评论 -
第五章 Spark-SQL进阶(二)之数据源
第五章 Spark-SQL进阶(二)2.数据源数据以各种不同的格式提供电子表格可以用 XML,CSV,TSV 表示应用程序指标可以用原始文本或 JSON 写出每个用例都有针对它定制的特定数据格式在大数据领域,我们通常会遇到 Parquet、ORC、Avro、JSON、CSV、SQL 和 NoSQL 数据源以及纯文本文件等格式。我们可以将这些数据格式大致分为三类:结构化、半结构化和非结构化数据。2.1结构化数据结构化数据源定义数据的模式。利用有关底层数据的额外信息,结构化数据源可提供原创 2021-05-08 22:50:56 · 227 阅读 · 0 评论 -
第五章 Spark-SQL进阶(一)之Dataset用法
第五章 Spark-SQL进阶(一)1.核心语法1.1DataFrame第一种方式通过读取外部数据集spark.read.数据源方法()DataFrameReader对象中有Spark内置支持数据源读取数据的方法eg:parquet csv text json jdbc table orc等第二种方式通过createDataFrame方法传递RDD或Seq参数createDataFrame[A <: Product : TypeTag](rdd: RDD[A])c原创 2021-05-08 22:49:45 · 305 阅读 · 0 评论 -
第四章 Spark-SQL基础(二)之Dataset优势
第四章 Spark-SQL基础(二)8.核心对象8.1SparkSessionSpark-SQL组件中的一个会话对象。SparkSession对象中构建SparkSession的核心源代码如下:@Stableobject SparkSession extends Logging { /** * Builder for [[SparkSession]]. */ @Stable class Builder extends Logging { private[thi原创 2021-05-08 22:46:57 · 215 阅读 · 0 评论 -
第四章 Spark-SQL基础(一)之Spark SQL优点
第四章 Spark-SQL基础(一)1.认识Spark-SQLSpark SQL是Spark中处理结构化数据的模块。提供了一种新的编程抽象DataFrame/Dataset,并且可以充当分布式SQL查询引擎。集成:无缝地将SQL查询集成到Spark程序中。统一数据访问:使用统一的方式连接到常见数据源。Hive兼容:通过配置可以直接兼容Hive,运行查询Hive数据。标准的连接:通过JDBC、ODBC连接。Spark SQL包括具有行业标准JDBC和ODBC连接的服务器模式。2.Spark原创 2021-05-08 22:34:39 · 1687 阅读 · 0 评论