
spark
文章平均质量分 68
spark
落幕7
山山而川
展开
-
spark的资源调度与任务调度
blockManager 资源调度与任务调度原创 2023-11-17 16:03:55 · 320 阅读 · 0 评论 -
Spark SQL
1. 数据分析方式 1) 命令式 在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个 算子, 可以得到一个结果, 通过结果再进行后续计算。 sc.textFile("...") .flatMap(_.split(" ")) .map((_, 1)) 26 / 110 .reduceByKey(_ + _) .collect() 命令式的优点 操作粒度更细,能够控制数据的每一个处理环节; 操作更明确,步骤更清晰,容易维护; 支持半/非结构化数据的操作。原创 2021-11-20 19:21:47 · 1881 阅读 · 0 评论 -
Spark调优总结(代码,参数,数据倾斜调优)
文章目录Spark调优代码调优参数调优参数调优模板数据倾斜调优 Spark调优 代码调优 1.避免创建重复的RDD 2.尽可能复用同一个RDD 3.对多次使用的RDD进行持久化 持久化策略选择: 默认情况:MEMORY_ONLY(性能最高,前提内存足够,实际生产环境中也不可能把所有的内存提供给你进行持久化,数据量一大就会导致JVM的OOM(out-of-memory:内存溢出) 若使用MEMORY_ONLY发生内存溢出,建议尝试MEMORY_ONLY_SER级别,降低了内存占用,比MEMORY_ONLY多原创 2021-11-16 22:00:53 · 625 阅读 · 0 评论 -
SparkSQL详细
spark sql 一.概述1 spark历史2 Spark-SQL 概述2.1 特点2.2 作用2.3 Spark SQL架构图 3 Dataset演进历史3.1 RDD3.1.1 优点3.1.2 缺点 3.2 DataFrame3.2.1 优点3.2.2 缺点3.2.3 核心特征 3.3 Dataset3.3.1 区别3.3.2 特点 4 SparkSQL API4.1创建SparkSession4.2 核心API 5 基本操作5.1 Row5.2 Sch..转载 2021-11-14 09:15:23 · 1765 阅读 · 0 评论 -
spark广播变量,累加器和SparkShuffle
文章目录广播变量累加器Sparkshufflespark shuffle 演进的历史1、未经优化的HashShuffleManager2、优化后的HashShuffleManager3、SortShuffle4、sortshuffle的bypass运行机制5、Tungsten-Sort Based Shuffle 在默认情况下,当 Spark 在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是, 有时候需要在多个任务之间共享变量,或者在任务(原创 2021-11-11 22:30:19 · 920 阅读 · 0 评论 -
spark中的checkpoint,持久化和checkpoint的区别
文章目录spark中的checkpoint持久化和Checkpoint的区别 spark中的checkpoint 持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等。 Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用。 具体用法: sc.setCheckpoint原创 2021-11-11 20:59:03 · 677 阅读 · 0 评论 -
用spark写WordCount(本地运行,提交到yarn运行)
文章目录idea中本地运行提交到集群去运行 idea中本地运行 本地idea中运行要导入spark,scala依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.12</version>原创 2021-11-10 21:19:29 · 2094 阅读 · 0 评论 -
大数据开发之Spark常用RDD算子
文章目录大数据开发之Spark常用RDD算子mapflatMapmapPartitions和mapPartitionsWithIndexfiltersampleunionjoingroupByKeysort,sortBykeyMapValues常用操作算子 大数据开发之Spark常用RDD算子 map map传入一条数据,返回一条数据 map是对RDD中元素逐一进行函数操作映射为另外一个RDD, 将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入原创 2021-11-09 22:09:50 · 741 阅读 · 0 评论 -
SparkRDD的五大特性
SparkRDD的五大特性 一组分片(Partition)/一个分区(Partition)列表,即数据集的基本组成单位。(A list of partitions ) 对于RDD 来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD 时指定RDD 的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。 一个函数会被作用在每一个分区。(A function for computing each split ) Spark 中RDD 的原创 2021-11-08 23:04:50 · 632 阅读 · 0 评论 -
spark2.4.5搭建过程
文章目录spark2.4.5搭建过程1、上传解压,配置环境变量 配置bin目录2、修改配置文件 conf3、复制到其它节点4、在主节点执行启动命令 spark2.4.5搭建过程 1、上传解压,配置环境变量 配置bin目录 #环境变量配置 vim /etc/profile #Spark export SPARK_HOME=/usr/local/soft/spark-2.4.5 export PATH=$PATH:$SPARK_HOME/bin #生效环境变量 source /etc/profile 2、原创 2021-11-08 20:23:13 · 719 阅读 · 0 评论 -
idea里用scala连接阿里云RDS的MySQL数据库的API
文章目录idea里用scala连接阿里云RDS的MySQL数据库的API加载驱动用scala代码连接 idea里用scala连接阿里云RDS的MySQL数据库的API 加载驱动 先向pom.xml里添加MySQL依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId>原创 2021-11-05 05:00:00 · 390 阅读 · 0 评论 -
Scala详细
Scala详细教程 转载自:https://blog.youkuaiyun.com/wangshun_410/article/details/90759688 目录 1.Scala 介绍 1.1 什么是 Scala Scala 1.2 为什么要学 Scala 2.开发环境准备 2.1 ScalaSDK 安装 2.1.1Window 下安装 ScalaSDK 2....原创 2021-11-04 18:45:31 · 3498 阅读 · 0 评论