java面试题网站:www.javaoffers.com
countApproxDistinct(x):计算Rdd中元素的大约个数,并且去重,x代表精度,x越小代表计算的月仔细。
demo代码:
val r1 = sc.parallelize(1 to 10000,20)
r1.countApproxDistinct(0.1) 输出的结果: Long = 8224
r1.countApproxDistinct(0.02) 输出的结果: Long = 9916
r1.countApproxDistinct(0.001)输出的结果: Long = 10000