
Spark
Keep hunger
把月份过成了日子,把恬淡揉散在心间
展开
-
阻断血缘关系以及checkpoint文件清理
2.2 可以通过getCheckpointDir.get方式读取到checkpoint的文件地址。2.1 更改配置文件开启checkpoint文件清理。原创 2023-12-24 23:04:57 · 833 阅读 · 0 评论 -
SaprkSql数据源以及Hive使用
SaprkSql数据源文章目录SaprkSql数据源1. 通用数据保存方式2. json文件3. Parquest文件4. JDBC5. Hive 数据库1. 内嵌Hive应用2. 外部Hive应用3. 运行Spark SQL CLI4. 代码中使用Hive1. 通用数据保存方式Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,...原创 2020-04-24 14:44:50 · 373 阅读 · 0 评论 -
Spark -- SparkSql编程
Spark – SparkSql编程文章目录Spark -- SparkSql编程1. DataFrame1.1 创建1.1.1 通过spark的数据源创建1.1.2 从RDD进行转换1.1.3 从Hive Table进行查询返回1.2 SQL语法风格1.3 DSL语法风格1.1.4 RDD转换为DataFrame2. DataSet2.1 创建3. RDD,DataSet和DataFrame的...原创 2020-04-22 23:03:58 · 328 阅读 · 0 评论 -
SparkSql -- DataFrame和DataSet
SparkSql – DataFrame和DataSet1. 什么是sparksqlHive将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!2. sparksql的特点易...原创 2020-04-22 17:00:15 · 286 阅读 · 0 评论 -
Spark -- 累加器和广播变量
Spark – 累加器和广播变量文章目录Spark -- 累加器和广播变量一. 累加器1. 系统累加器2. 自定义累加器二. 广播变量spark有三大数据结构:RDD:分布式弹性数据集累加器:分布式只写数据集广播变量:分布式只读数据集一. 累加器累加器用来对信息进行聚合,通常在向 Spark传递函数时,比如使用 map() 函数或者用 filter() 传条件时,可以使用驱动器程序中...原创 2020-04-22 14:37:42 · 425 阅读 · 1 评论 -
Spark -- 文件的读取和保存
Spark – 文件的读取和保存文章目录Spark -- 文件的读取和保存一. 文件类数据读取与保存1. Text文件2. json文件3. Sequence文件4. 对象文件二. 文件系统类数据读取与保存1. HDFS2.Mysql数据库连接1.mysql读取数据2.mysql写入数据3. Hbase 数据库连接Spark对数据进行处理一般是操作文件或者文件系统。Spark的数据读取及数...原创 2020-04-22 13:41:55 · 869 阅读 · 0 评论 -
Spark -- RDD数据分区(分区器)
Spark – RDD数据分区Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意:(1)只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围:...原创 2020-04-21 11:13:14 · 936 阅读 · 0 评论 -
Spark -- RDD缓存和CheckPoint
Spark – RDD缓存和CheckPoint1. 缓存RDD通过persist方法或cache方法可以将前面的计算结果缓存,默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。 但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。cache最终也是调用了persist方法,默认的存储级别都是仅...原创 2020-04-20 22:56:37 · 303 阅读 · 0 评论 -
Spark -- RDD依赖关系
Spark – RDD依赖关系文章目录Spark -- RDD依赖关系1. Lineage(血缘)2. 宽依赖3. 窄依赖4. DAG(有向无环图)5. 任务划分1. Lineage(血缘)RDD只支持粗粒度的转换,即在大量纪录上进行单个操作。。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分...原创 2020-04-20 21:44:16 · 235 阅读 · 0 评论 -
Spark--RDD中函数的传递
Spark–RDD中函数的传递文章目录Spark--RDD中函数的传递1.传递一个方法和属性2.错误主要常出现在没有对传递的方法或者熟悉序列化2.1 传递一个方法2.2 传递一个属性在spark的开发过程中,往往只需要写一个driver,但是计算是在Excutor中,所以这就涉及到进程之间的通信,需要序列化。1.传递一个方法和属性import org.apache.spark.{Spark...原创 2020-04-20 17:56:08 · 369 阅读 · 0 评论 -
Spark--常用转换算子
Spark–常用转换算子文章目录Spark--常用转换算子1.value类型1.1 map1.2 mapPartitions1.3 mapPartitionsWithIndex1.4 flatMap1.5 map()和mapPartition()的区别1.6 glom1.7 groupBy1.8 filter1.9 sample(withReplacement, fraction, seed...原创 2020-04-19 18:25:53 · 666 阅读 · 0 评论 -
Spark--常用行动算子
Spark–常用行动算子文章目录Spark--常用行动算子1. reduce(func)2. collect()3. count()4. first()5. take(n)6 takeOrdered(n)7. aggregate8. fold(num)(func)9. saveAsTextFile(path)10. saveAsSequenceFile(path)11. saveAsObject...原创 2020-04-20 17:02:26 · 897 阅读 · 1 评论 -
Spark--算子实操1
Spark–算子实操1样本:1516609143867 6 7 64 161516609143869 9 4 75 181516609143869 1 7 87 12需求:统计出每一个省份广告被点击次数的TOP3import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}objec...原创 2020-04-20 16:37:37 · 191 阅读 · 0 评论 -
Spark--RDD属性特点和概念关系
Spark–RDD属性和特点文章目录Spark--RDD属性和特点1.1 什么是RDD1.2 RDD的属性1.3 RDD特点1.3.1 分区1.3.2 只读1.3.3 依赖1.3.4 缓存1.3.5 CheckPoint1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变...原创 2020-04-18 14:47:12 · 311 阅读 · 0 评论 -
Spark概述和集群部署
Spark概述和集群部署文章目录Spark概述和集群部署一:spark内置模块二:spark运行模式以及部署1. Local模式1.1 :安装部署1.2: 演示wordcount程序2. Standalone模式2.1 :安装部署3. yarn模式3.1 概述3.2 安装部署3.3 日志查看一:spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误...原创 2020-04-16 16:36:14 · 295 阅读 · 0 评论