- 博客(5)
- 收藏
- 关注
原创 Spark Shuffle 原理
优点:快-不需要排序,也不需要维持hash表不需要额外空间用作排序不需要额外IO-数据写入磁盘只需一次,读取也只需一次缺点:当partitions大时,输出大量的文件(cores * R),性能开始降低大量的文件写入,使文件系统开始变为随机写,性能比顺序写要降低100倍缓存空间占用比较大。
2023-05-06 23:01:23
205
原创 Spark RDD的基本概念
RDD的全称为Resilient Distributed Dataset,是⼀个弹性、可复原的分布式数据集,是Spark中最基本的抽象,是⼀个不可变的、有多个分区的、可以并⾏计算的集合。RDD中并不装真正要计算的数据,⽽装的是描述信息,描述以后从哪⾥读取数据,调⽤了⽤什么⽅法,传⼊了什么函数,以及依赖关系等。所以,RDD本质更像是Scala中的迭代器。
2023-04-18 16:25:54
1002
1
原创 Flink基于Zookeeper、Curator的高可用原理1
本篇是基于Flink1.16对老版本(Flink1.12以下)高可用原理、以Standalone模式下的WebMonitorEndpoint为例的一篇更新本篇聚焦于Zookeeper的高可用原理。
2023-04-06 22:00:25
478
2
原创 Analyzing Airbnb data for Boston and Seattle
Analyzing Airbnb data for Boston and SeattleAnalyzing Airbnb data for Boston and Seattle1. Business understanding2. Data understanding2.1 Load the data2.2 Preview the data3. Data preperation3.1 Merge ...
2019-10-16 03:18:29
1032
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人