累加器(accumulator)
累加器是共享变量的一种,它提供了信息聚合的一种方法,提供了将工作节点中的值聚合到驱动器程序中的简单语法,累加器常常被作为Rdd的map,filter操作的副产品,这仍然是由于行动操作之前的转化操作仍然是惰性的,只有进行了行动操作之后,才会触发累加器的求值操作。
spark快速大数据分析
只有在执行了saveAsTextFile之后,累加器blankLines才能保存正确的值。
累加器(accumulator)
累加器是共享变量的一种,它提供了信息聚合的一种方法,提供了将工作节点中的值聚合到驱动器程序中的简单语法,累加器常常被作为Rdd的map,filter操作的副产品,这仍然是由于行动操作之前的转化操作仍然是惰性的,只有进行了行动操作之后,才会触发累加器的求值操作。
spark快速大数据分析
只有在执行了saveAsTextFile之后,累加器blankLines才能保存正确的值。