
Spark
Spark相关知识
剁椒鱼不要头
这个作者很懒,什么都没留下…
展开
-
Scala中的枚举类型
Scala中的枚举类型说明说明在Scala的Enumeration类中定义了一个名为Value的内部类,跟这个内部类同名的不带参数的Value方法每次都返回这个类的全新实例。也可以用重载Value的方法给枚举值关联特定的名称,如下代码定义枚举类.package com.mc.enumobject GenderEnum extends Enumeration { type Gen...原创 2019-04-04 22:02:02 · 1363 阅读 · 0 评论 -
Spark简介
1、Spark是什么Spark是一个用来实现快速而通用的集群计算的平台。它的一个主要的特点就是能够在内存中进行计算,因而相对于MapReduce而言速度更快,即使是必须在磁盘上进行计算,也比MapReduce效率更高。2、Spark的核心组件(1)Spark CoreSpark Core实现了Spark的基本功能,包括任务调度、内存管理、错误恢复、与存储系统交互等,还包含了对弹性分布式数...原创 2020-01-02 16:11:53 · 572 阅读 · 0 评论 -
Win10系统配置Scala环境变量
1、下载安装Scala官网下载地址:http://www.scala-lang.org/download/为快速安装,可选择下载msi格式2、双击msi文件进行安装,可自行选择安装路径3、配置环境变量在桌面【此电脑】右击,选择【属性】->【高级系统设置】->【环境变量】,在【系统变量】中添加以下配置信息:(1)点击【新建】,在【变量名】处添加 SCALA_HOME(2...原创 2020-01-02 14:13:39 · 252 阅读 · 0 评论 -
Spark RDD持久化
1、持久化的优势Spark RDD是惰性求值的,如果简单地对RDD调用行动操作,Spark每次都会重算RDD以及它的所有依赖,为避免多次计算同一个RDD,可以通过persist()方法让Spark对数据进行持久化。当我们让Spark持久化存储一个RDD时,计算出RDD的节点会分别保存它们所求出的分区数据。如果一个有持久化数据的节点发生故障,Spark会在需要用到缓存的数据时会重算丢失的数据分...原创 2020-01-03 20:03:25 · 193 阅读 · 0 评论 -
Spark RDD操作
一、Spark RDD基础1、Spark RDD是什么Spark RDD是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上,进行并行化运算。2、创建Spark RDD的两种方式(1)读取外部数据集如:val lines = sc.textFile(“words.txt”)(2)在驱动器程序中对一个集合进行并行化如:val lines = sc...原创 2020-01-03 20:19:32 · 357 阅读 · 0 评论 -
Spark键值对Pair RDD操作
1、键值对pair RDD产生的背景pair RDD提供了一些新的操作接口,比如统计每个产品的评论,将数据中键相同的分为一组,将两个不同的RDD进行分组合并等。我们通常从一个RDD中提取某些字段如事件时间、用户ID,并使用这些字段作为pair RDD操作中的键。2、创建pair RDD(1)读取键值对格式数据时直接返回其键值对数据组成的pair RDD。(2)使用map()函数将普通的RD...原创 2020-01-03 20:58:11 · 354 阅读 · 0 评论 -
Spark Pair RDD的高级特性-分区
1、数据分区的意义在分布式程序中,通信的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样,Spark程序可以通过控制RDD分区方式来减少通信开销。而只有当数据集多次在诸如连接这种基于键的操作使用时,分区才会有帮助。Spark中所有的键值对RDD都可以进行分区。系统会根据一个针对键的函数对元素进行分组,并确保同一组的键...原创 2020-01-03 21:42:53 · 281 阅读 · 0 评论 -
Spark的累加器和广播变量
一、累加器1、背景Spark向函数传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。Spark提供了一个共享变量–累加器,可以将工作节点的值聚合到驱动器程序中。常用于调试时对作业执行过程中的事件进行统计。2、累加器示例val sc = new SparkContext(...)val inpu...原创 2020-01-05 11:14:21 · 346 阅读 · 0 评论 -
Spark集群部署
一、Spark运行时架构在分布式环境下,Spark集群采用的是主从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个节点称为驱动器(Driver)节点,与之对应的节点称为执行器(executor)节点。两种节点一起被称为一个Spark应用(application)。1、驱动器节点驱动器是执行程序中main()方法的进程,用来创建SparkContext、...原创 2020-01-05 20:29:31 · 284 阅读 · 0 评论