- 博客(1)
- 收藏
- 关注
原创 Spark算子
一、Transformation算子 1.1 产生shuffle的算子: groupBy:按照指定字段进行分组,生成RDD元素类型是KV键值对。 distinct:去重。 coalesce:增大分区时需设置shuffle为true,如果减少分区,建议使用coalesce,减少分区使用coalesce可以避免shuffle操作,提高线程的利用率 repartition:可增多也可以减少分区,会产生shuffle。 sortBy:按照指定字段进行排序,底层采用RangeParititioner分区器 in
2022-05-02 20:55:54
1633
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人