
Spark篇
文章平均质量分 78
Spark是一个通用的分布式数据处理引擎。
阿布爱可乐
一只爱可乐的猫,也爱编程!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark初级篇之面试基础(下)
spark初级篇(下)什么是二次排序?根据某一刻数据进行排序,当数据相同时根据另外的列数据进行排序8排序分为两种:分组排序求topN,全局排序spark master 资源分配的方式?尽量集中:尽量在某一台或某几台机器上启动尽量打散:尽量让需要的资源平均的在不同的机器上启动master的作用?Master HA 的四大方式:分別是 ZOOKEEPER,FILESYSTEM, CUSTOM, NONE;需要说明的是:ZOOKEEPER 是自動管理 Master;F原创 2021-12-21 11:03:31 · 150 阅读 · 0 评论 -
spark初级篇
spark初级篇什么是RDD?RDD(Resilient[弹回的有弹力的] Distributed Dataset)是一个分布式弹性数据集,是spark对数据的核心抽象RDD的属性?①一组分片②一个/每个分区的计算函数(算子)一个分区一个算子 并行计算③RDD的依赖关系 通过装换生成新的RDD 而原有的RDD不变④一个partitioner只有key value 的数据才有的partitioner默认是hash⑤一个列表:这个列表保存的是每个partition所在的位置rd原创 2020-10-24 09:55:15 · 132 阅读 · 0 评论 -
spark基础篇
spark基础篇什么是spark?spark是一个用于大规模数据处理的分析引擎,是基于内存计算的大数据并行计算框架,它有快速、通用、可扩展的特点。(并发的关键是你有处理多个任务的能力,不一定要同时。 并行的关键是你有同时处理多个任务的能力。 )spark为什么比mapreduce快?①spark基于内存②迭代计算③持久化什么是迭代式计算迭代计算就是前一次计...原创 2020-08-02 22:09:41 · 193 阅读 · 0 评论