spark 实现百分位数计算

最新推荐文章于 2023-09-28 22:49:40 发布

原创最新推荐文章于 2023-09-28 22:49:40 发布 · 6.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #Spark #百分位数

大数据 spark 专栏收录该内容

1 篇文章

订阅专栏

因工作需要计算百分位数，但Spark Core不支持。介绍两种实现方式：一是用Spark SQL计算，给出示例代码及函数说明；二是自定义Spark Core计算百分位数的方法，给出代码实现、参数解释及使用示例，返回分段值数组。

spark实现百分位数计算

工作需要要计算百分位数但是 spark core 不支持计算百分位数
一.可以使用 spark sql 计算但是他操作起来很不方便
select percentile_approx(tb_sku.sku_stddv,cast(array(0.2, 0.40, 0.60, 0.80) as array)) from tb_sku

其中 percentile_approx(tb_sku.sku_stddv,cast(array(0.2, 0.40, 0.60, 0.80) as array))
计算百分位数的函数
具体参数参看：
https://blog.youkuaiyun.com/sinat_27339001/article/details/52189843
二.自定义 spark core 计算百分位数方法当做工具使用
具体代码实现：

/**
* 计算分位数的分段值
*
* @param data : rdd
* @param tile : 分位数
* @return 分段值
*/

def computePercentile(data: RDD[Double], tile: Double): Double = {

if (!data.isEmpty()) {
  val r = data.sortBy(x => x)
  val c = r.count()
  if (c == 1) r.first()
  else {
    val n = (tile / 100d) * (c + 1d)
    val k = math.floor(n).toLong
    val d = n - k
    if (k <= 0) r.first()
    else {
      val index = r.zipWithIndex().map(_.swap)
      val last = c
      if (k >= c) {
        index.lookup(last - 1).head
      } else {
        index.lookup(k - 1).head + d * (index.lookup(k).head - index.lookup(k - 1).head)
      }
    }
  }
}
else 0

}

参数解释：
data ：RDD[(Double)] 需要计算分位数的 RDD，
tile: Double 具体计算的分位数（20，40,60===》20%，40%。。。）
返回值：返回该RDD 的百分位数的分段值
例如：val segment_arr = Array(utils.computePercentile(mratioRDD, 20),
utils.computePercentile(mratioRDD, 40),
utils.computePercentile(mratioRDD, 60),
utils.computePercentile(mratioRDD, 80),
utils.computePercentile(mratioRDD, 100)
)
返回一个分段值的数组：

0.4295004004115095
0.6420823735288389
0.8625984512540754
1.0974667335218444
4.533219776740614