Spark基础之 Job, Stage, Partition, Task, Executor

最新推荐文章于 2025-05-11 21:09:24 发布

走向自由

最新推荐文章于 2025-05-11 21:09:24 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

本文链接：https://blog.youkuaiyun.com/adorechen/article/details/106317955

spark 专栏收录该内容

24 篇文章

订阅专栏

最近在开发spark streaming 程序时对这些概念有了深刻的理解,在此总结下。

我最近的 spark streaming 核心代码如下：

stream.foreachRDD(rdd -> {
    try {
        // extract all activity events
        rdd.flatMap(record -> {
            String topic = record.topic();
            TopicHandler handler = HandlerFactory.getHandler(topic);
            return handler.handle(record.value());
        }).groupBy(act -> act.getMemberSrl())

            // process all activities
            .foreachPartition(itr -> {
                while (itr.hasNext()) {
                    Iterable<Activity> acts = itr.next()._2;
                    Processor.process(acts);
                }
            });

    } catch (Exception e) {
        log.error("consumer rdd error", e);
    }
});

1 Job

就是spark batch/streaming 里的一系列的数据转换 + 一个结果算子（比如collect, count，foreachPartition ）。

2 Stage

Stage概念是spark中独有的。一般而言一个Job会切换成一定数量的stage。各个stage之间按照顺序执行。至于stage是怎么切分的，首选得知道spark论文中提到的narrow dependency(窄依赖)和wide dependency（宽依赖）的概念。其实很好区分，看一下父RDD中的数据是否进入不同的子RDD，如果只进入到一个子RDD则是窄依赖，否则就是宽依赖。宽依赖和窄依赖的边界就是stage的划分点