
Spark
博雅智信
️·专注人工智能相关领域就业辅导、论文辅导、咨询辅导
·SCI/CCF/EI/毕业论文
·名校硕博团队/一线互联网大厂资深导师
·人工智能|机器学习|深度学习|计算机视觉|大语言模型|人机交互|推荐系统
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark学习第一天------创建RDD的方式
1,创建RDD 1.进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDD。 2.Spark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建...原创 2019-01-20 10:39:49 · 650 阅读 · 0 评论 -
Spark学习第二天----Transformation和Action算子的学习
1、transformation和Action算子的介绍。 transformation操作会针对已有的RDD创建一个新的RDD; 而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并且把结果返回给Driver程序。 transformation的特点就是lazy(懒)特性。lazy特性指的是,如果一个Spark应用中只定义了transformation操作...原创 2019-01-22 09:41:24 · 387 阅读 · 0 评论 -
Spark学习第二天之---共享变量Broadcast Variable(广播变量)和Accumulator(共享变量)
共享变量分为两种:Broadcast Variable(广播变量) 和 Accumulator(累加变量) 什么是共享变量? 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Braadcast Variable会将使用到的变量,仅仅为每个...原创 2019-01-23 16:08:09 · 410 阅读 · 0 评论