
spark
find_czk
stay hungry,stay foolish.
展开
-
spark RDD常用操作
Spark常用算子分析与应用1、算子概述什么是算子 英文翻译为:Operator(简称op) 狭义:指从一个函数空间到另一个函数空间(或它自身)的映射。 广义:指从一个空间到另一个空间的映射 通俗理解:指事物(数据或函数)从一个状态到另外一个状态的过程抽象。 实质就是映射,就是关系,就是变换。 算子的重要作用 算子越少,灵活性越低,则实现相同功能的编程复杂度越高,...原创 2019-08-16 12:10:53 · 1715 阅读 · 0 评论 -
spark core 介绍
Spark Core1、Spark架构设计1.1 架构设计图1.2 相关术语名词解释RDD (Resilient Distributed DataSet)弹性分布式数据集,是对数据集在spark存储和计算过程中的一种抽象。是一组只读、可分区的的分布式数据集合。一个RDD 包含多个分区Partition(类似于MapReduce中的InputSplit),分区是依照一...原创 2019-08-16 12:50:51 · 8035 阅读 · 1 评论