【spark】java类在spark中的传递，scala object在spark中的传递

原创已于 2023-08-29 22:12:59 修改 · 852 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #java #scala

于 2023-08-29 22:09:07 首次发布

Spark 专栏收录该内容

40 篇文章

订阅专栏

文章讨论了Java类中的静态成员在Spark中的行为，指出Scala的object相当于是Java的静态成员。当在Spark中使用时，由于singleton对象不会被传递给executor，而是在首次访问时在executor本地初始化，导致在executor上看到的是每次都重新创建的实例。

记录一个比较典型的问题，先讲一下背景，有这么一个用java写的类

public class JavaClass0 implements Serializable {
	private static String name;

    public static JavaClass0 getName(String str) {
        if (name == null) {
			name=str;
		}
        return name;
    }
    ...
}

然后在spark中使用的时候：

//driver端
JavaClass0.getName("张三")//得到张三
JavaClass0.getName("李四")//得到张三

df.foreachPartition{//executor端
	m=>
	JavaClass0.getName("王五")//得到王五
	JavaClass0.getName("钱六")//得到王五
}

原因：
scala的object对应的就是java的静态成员，可以反过来理解java的所有静态成员可被抽取成伴生对象（虽然现实中是scala最终编译成java）。以上面的JavaClass0 例子可理解为等价的scala代码为：

class JavaClass0 {
  ...
}

//伴生对象
object JavaClass0 {
	private var name:String = null
	 getName(str:String) {
        if (name == null) {
			name=str
		}
        return name;
    }
}