《深入理解Spark》之通过sample算子找出导致数据倾斜的key

最新推荐文章于 2024-06-23 16:11:38 发布

原创

最新推荐文章于 2024-06-23 16:11:38 发布 · 2.3k 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Spark的sample算子来检测数据倾斜。通过设置withReplacement和fraction参数进行抽样，然后对抽样数据进行wordCount操作并排序，找出出现频率最高的key，以判断其为数据倾斜的潜在原因。

最近在整理原来学过的内容，看到sample算子就写一篇在实际开发中sample算子的具体应用

sample(withReplacement : scala.Boolean, fraction : scala.Double，seed scala.Long)

sample算子时用来抽样用的，其有3个参数

withReplacement：表示抽出样本后是否在放回去，true表示会放回去，这也就意味着抽出的样本可能有重复

fraction ：抽出多少，这是一个double类型的参数,0-1之间，eg:0.3表示抽出30%

seed：表示一个种子，根据这个seed随机抽取，一般情况下只用前两个参数就可以，那么这个参数是干嘛的呢，这个参数一般用于调试，有时候不知道是程序出问题还是数据出了问题，就可以将这个参数设置为定值

下面是代码:

大概思路是：通过抽样取出一部分样本，在对样本做wordCount并排序最后取出出现次数最多的key，这个key就是导致数据倾斜的key

package com.lyzx.spark.streaming;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

public class Day05 {

    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("Day05");
        JavaSparkContext jsc =

最低0.47元/天解锁文章