
Spark
文章平均质量分 60
Spark学习笔记
我要改名字qWq
这个作者很懒,什么都没留下…
展开
-
Spark优化
https://segmentfault.com/a/1190000022526479一.增加资源1. 增加executor数量executor越多,spark任务并行能力越强 executor为3,core为2,则同一时间可以同时执行6个task executor为6,core为2,则同一时间可以同时执行12个task 执行速度提升2倍2. 增加core数量core越多,spark任务并行执行能力越强 executor为3,core为2,则同一时间可以同时执行6个task exe.原创 2021-04-16 14:13:14 · 232 阅读 · 0 评论 -
DataFrame、DateSet和RDD的区别和联系
什么是DataFrame在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。3、RDD和DataFrame的区别DataFrame与RDD的主要区别在于,DataFrame带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。使得Spark SQL得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。RDD,原创 2021-04-13 10:18:20 · 534 阅读 · 0 评论 -
Spark SQL
SparkSQL是Spark生态栈中处理结构化数据的一个模块。特点:可集成 统一数据入口 整合Hive 标准连接SparkSession的创建和初始化Spark中编程的入口,就是各种各样的Context,在SparkSQL也不例外,Spark1.6以前,SparkSQL唯一的入口就是SQLContext,及其子类HiveContext,在Spark1.6之后,便又提供了一个SQLContext和HiveContext的集成者——SparkSession。此时SparkSession就成为原创 2021-04-12 22:44:01 · 244 阅读 · 0 评论 -
8.共享变量
共享变量背景:广播变量 def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName(s"${_01SparkBroadcastOps.getClass.getSimpleName}") .setMaster("local[2]") val sc = new SparkContext(conf)原创 2021-03-07 14:30:42 · 219 阅读 · 0 评论 -
7.SparkRDD的持久化
一个RDD如果被多次操作,为了提交后续的执行效率,我们建议对该RDD进行持久化操作。如何对一个RDD进行持久化呢?rdd.persist()/cache()就完成了rdd的持久化操作,我们可以将该rdd的数据持久化到内存,磁盘,等等。同样,如果我们已经不再对该rdd进行一个操作,而此时程序并没有终止,我们便可以卸载已经持久化的该rdd数据,rdd.unPersist()。持久化策略 MEMORY_ONLY(默认) rdd中的数据以java对象的形式,保存在内存原创 2021-03-07 12:41:12 · 244 阅读 · 0 评论 -
6.Action算子操作
Action算子是spark作业执行的动因,也就是说transformation要想执行,就需要action去触发,通常就将RDD的数据输出到外部的存储介质,或者返回给Driver。Foreach//执行action操作// rbk.foreach() //遍历该rdd中的每一条记录,该操作是在executor中的partition上面完成 /** * 将rdd的数从executor中拉取到driver端进行操作(全量数据的拉取)原创 2021-03-07 12:19:05 · 260 阅读 · 0 评论 -
5.Transformation(转换算子)
作用于一个已知的RDD,通过一系列转换算子(scala集合的高阶函数),将原始RDD的数据由一种形态,转化为新的一种形态,比如,rdd:RDD[String]--map-->RDD[(String, String)]。这种转换操作有一个特点,lazy懒加载,也就是说如果没有遇到的作业的执行,该算子操作不会被触发操作。常见的transformation操作,比如map、flatMap、filter、join、sample、groupByKey、reduceByKey、sortByKey等等。fla原创 2021-03-07 11:04:00 · 916 阅读 · 0 评论 -
4.Spark作业执行架构
Wordcount作业运行过程剖析图Spark作业运行架构剖析图原创 2021-03-07 08:33:33 · 136 阅读 · 0 评论 -
3.Spark编程
1.创建项目指定maven坐标执行项目的目录删除项目原型自带的几个类指定maven依赖<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.2</spark.version> <hadoop.version>2.7.6</hadoop.version></properties>原创 2021-03-04 23:52:29 · 243 阅读 · 1 评论 -
2.Spark核心概念
1.名词解释1)ClusterManager:在Standalone(spark自身集群模式)模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器。Spark集群的管理,管理spark集群的资源(cpu core、内存),yarn中的话就是ResourceManager。2)Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为NodeManager,负责计算节点的控制。3)Driver:运行Application的main()函原创 2021-03-04 22:04:57 · 407 阅读 · 2 评论 -
1.Spark介绍及安装
1.安装要求2.Windos运行spark启动spark/bin/spark-shell.cmd2我们可以了解到,每一个Spark应用程序,都会对应一个WebUI,默认的访问端口4040,如果被占用,就依次累加,4041,4042...3.本地提交一个spark作业Spark的作业的执行是分阶段stagestage-0stage-1executor4.命令解释val lines = sc.textFile("E:/data/hello.txt"原创 2021-03-04 21:43:51 · 255 阅读 · 1 评论